Você está na página 1de 11

INTRODUCTION TO BIG DATA

University of California San Diego 


Traduzido por ​Gisele Cristina Costa Jardim 
 
 

SEMANA 1 
What Launched The Big Data era?  
Pense  nisso:  hoje  você  pode  comprar  um  disco  rígido  para  armazenar  todas  as  músicas  do  mundo  por apenas 
US$600,  essa  é  uma  incrível  capacidade  de  armazenamento  sobre  todas  as  formas  anteriores  de 
armazenamento  de  música.  Os  telefones,  e  os  aplicativos  que  instalamos  neles,  também  são  uma  fonte de Big 
Data.  Tudo  isso  leva  a  projeções  de  crescimento  sério:  40%  em  dados  globais por ano e 5% em gastos globais 
de  TI.  Esses dados certamente levaram o campo da ciência de dados a começar a permanecer em si e no mundo 
dos negócios de hoje.  
 

Mas  há  algo  mais contribuinte para o poder de catalisador da ciência de dados, e é chamado de computação em 


nuvem.  Chamamos  isso  de  computação  sob  demanda.  A  computação  em  nuvem  é  uma  das  maneiras  pelas 
quais a computação se tornou algo que podemos fazer a qualquer hora e em qualquer lugar.   

Você  pode  se  surpreender ao saber que alguns de seus aplicativos favoritos são de empresas administradas em 


cafeterias.  Essa  nova  habilidade,  combinada com nossa quantidade de dados, nos dá a oportunidade de realizar 
análises  de  dados  inovadoras,  dinâmicas  e  escalonáveis,  para  nos  contar  coisas  novas  sobre  nosso  mundo  e 
sobre nós mesmos.  
 

Para  resumir,  a  grande  quantidade  de  dados  combinada  com  a  capacidade de processamento computacional a 


qualquer hora, em qualquer lugar, tem estado no centro da origem da era do Big Data.  
 

What Makes Big Data Valuable? 


O  Big  Data  nos  permite  construir  modelos  melhores,  que  produzem  resultados  de  maior  precisão,  e  que  você 
ouça  a  voz  de  cada  consumidor.  Agora,  muitas  empresas,  incluindo  Walmart,  usam  essas  informações  para 
personalizar  suas  comunicações  com  seus  clientes,  o  que,  por  sua  vez,  leva  a  atender  melhor  às  expectativas 
dos consumidores e clientes mais felizes.  
 

Basicamente,  o  Big  Data  permitiu  o  marketing  personalizado.  Os  consumidores  estão  copiosamente  gerando 
dados  acessíveis  ao  público  por  meio  de  sites  de  mídia  social,  como  o  Twitter;  com  esses  dados,  as  empresas 
podem  ver  seu  histórico  de  compras,  o  que  pesquisaram,  o  que  assistiram,  onde  estiveram  e  o  que  os 
interessam por meio de curtidas e compartilhamentos.  
 

Vejamos  alguns  exemplos  de  como  as  empresas  estão  colocando  essas  informações  para  criar  melhores 
campanhas  de  marketing:  uma  área  com  que  estamos  familiarizados  são  os  mecanismos  de  recomendação, 
esses  mecanismos  aproveitam  os  padrões  do  usuário  e  os  recursos  do  produto  para  prever  a  melhor 
correspondência do produto para enriquecer a experiência do usuário.  
 

Outra  técnica usada pelas empresas é a análise de sentimentos (mineração de opinião) ou, em termos simples, a 
análise  dos  sentimentos  em  torno  de  eventos  e produtos. Quando compramos um produto, não só podemos ler 
os comentários, como também podemos escrever, dessa forma, outros clientes podem ser informados.   

Os  canais  de  notícias  são  preenchidos  com  a  análise  do  feed  do  Twitter  toda  vez  que  ocorre  um  evento  de 
importância,  como  eleições.  As  marcas  utilizam  a  análise  de  sentimentos  para  entender  como  os  clientes  se 
relacionam com seus produtos, de maneira positiva, negativa e neutra.  
 

A  publicidade  móvel  é  um  mercado  enorme  para  as  empresas,  as  plataformas  utilizam  os  sensores  em 
dispositivos  móveis,  como  GPS,  e  fornecem  anúncios  baseados  em  localização  em  tempo  real  e,  oferecem 
descontos com base nesse dilúvio de dados.  
 

Vamos  falar  agora  sobre  como  o  comportamento  global  do  consumidor  pode  ser  usado  para  o crescimento do 
produto.  Estamos  mudando  o  marketing  personalizado  para  o  comportamento  do  consumidor  como  um  todo. 
Toda  empresa  quer  entender  o  comportamento  coletivo  de  seus  consumidores  para  capturar  o  cenário  em 
constante  mudança.  Vários  produtos  de  Big  Data  permitem  isso,  desenvolvendo  modelos  para  capturar  o 
comportamento do usuário e permitir que as empresas tenham como alvo o público certo para o seu produto.  
 

Algumas aplicações: 
Com  os  rápidos  avanços  na  tecnologia  de  sequenciamento  de  genoma,  o  setor  de  ciências  da  vida  está 
passando  por  um  enorme  empate  no  Big  Data  biomédico.  Esses  dados  biomédicos  estão sendo utilizados por 
muitas  aplicações  em  pesquisa  e  medicina  personalizada.  Antes  dessa  medicina,  a  maioria  dos  pacientes  sem 
tipo  e  estágio  específico  de  câncer,  por  exemplo,  recebia  o  mesmo  tratamento,  que  funcionava  melhor  para 
alguns do que para outros; agora, a pessoa pode receber um plano de tratamento padrão ou a recomendação de 
algum tipo de tratamento personalizado.  
 

Outra  aplicação  de  Big  Data  vem  da  malha  interconectada  de  grande  número  de  sensores  implantados  em 
cidades  inteligentes.  A  análise  dos  dados  gerados  pelos  sensores  em  tempo  real  permite  que  as  cidades 
ofereçam  melhor  qualidade  de  serviço  aos  habitantes,  e  reduza  os  efeitos  indesejados,  como  poluição, 
congestionamento do tráfego e custo acima do ideal na prestação de serviços urbanos.  
 

Saving Lives With Big Data 


Como já vimos, existem muitos aplicativos interessantes que estão sendo ativados pela era do Big Data, existem 
diversas  aplicações  de  ciência  de  dados  de  grande  desafio  em  todas  as  áreas  da  ciência  e  engenharia; o que é 
comum a todos esses aplicativos é a maneira única de reunir novos modos de pesquisa de dados e computação.  
 

Poderíamos,  por  exemplo,  utilizar  Big  Data  para  monitorar,  prever  e  gerenciar  uma  tempestade,  em  busca  de 
evitar  possíveis  incêndios,  como  acontece  em  San  Diego.  Alguns  fluxos  de  incêndios  florestais  são  gerados 
pelas pessoas através de dispositivos que eles carregam, muitos vêm de sensores e satélites, coisas que medem 
fatores  ambientais,  e  alguns  vêm  de  dados  organizacionais,  incluindo  mapas  de  áreas  e  bancos  de  dados  de 
conteúdo  de  campo,  que  arquivam  quanto  registra  a vegetação e outros tipo de combustível no caminho de um 
possível incêndio.   

Mas  por  que  o  Big  Data  pode  ajudar?  porque  novas  abordagens e respostas podem ser adotadas se pudermos 
integrar  esses  diversos  fluxos  de  dados,  muitas  dessas  fontes  de  dados  já existem há algum tempo, mas o que 
falta  atualmente  no  gerenciamento  de  desastres  é  uma  integração  dinâmica  do  sistema  de  redes  de  sensores 
em  tempo  real,  imagens  de satélite, ferramentas de simulação de incêndio, conectividade a centros de comando 
de emergência e tudo isso antes, durante e após uma tempestade. 
 

Uma  grande  parte  dos  dados  sobre  incêndios  é  gerada  pelo  público  em  sites  de  mídia,  como  o  Twitter,  que 
suportam  recursos  de  compartilhamento  de  fotos.  Imagine  sintetizar  todas  as  fotos  no  Twitter  sobre  um 
incêndio  em  andamento  ou  verificar o sentimento do público em torno dos limites de um incêndio. Depois de ter 
o acesso, podemos monitorá-lo ou somente visualizá-lo. 
 

Using Big Data to Help Patients 


Vejamos  um  segundo  exemplo.  A  medicina  de  precisão  é  uma  área  voltada  para  uma  pessoa  individualmente, 
analisando  sua  genética,  seu  ambiente  e  suas  atividades  diárias,  para  que  possa  detectar  ou  prever  um 
problema  de  saúde  precocemente.  Certamente,  equipamentos  hospitalares  digitais  produzem  dados  de 
sensores  há  anos,  mas  era  improvável  que  os  dados  fossem  armazenados  ou  compartilhados,  e  muito  menos 
analisados  retrospectivamente.  Agora,  temos  mais  sensores  e  muitos  outros  lugares  que  capturam  e  coletam 
informações  para  serem  armazenadas  e  analisadas.  A  análise  dos  serviços  de saúde tem o potencial de reduzir 
os custos do tratamento, prever surtos de epidemias, evitar doenças e melhorar a qualidade de vida em geral.  
 

A Sentiment Analysis Sucess Story: Meltwater helping Danone 


Uma  empresa  de  inteligência  de  mídia,  ajudou  a  Danone  a  usar  análise  de  sentimentos.  A  empresa  ajudou  a 
Danone  a  monitorar  as  opiniões  nas  mídias  sociais  para  uma  de  suas  campanhas  de  marketing,  eles  foram 
capazes de medir o que foi impactante e o que não foi, por meio desse monitoramento.  
 

Where Does Big Data Come From? 


O  Big  Data  geralmente  se  resume  a  algumas  variedades  de  dados  geradas  por  máquinas,  pessoas  e 
organizações.  Com  os  dados  gerados  por  máquinas,  nos  referimos  aos  dados  gerados  a  partir de sensores em 
tempo  real  em  máquinas  ou  veículos  industriais  que  registram  o  comportamento  do  usuário  online,  sensores 
ambientais ou rastreadores pessoais de saúde, e muitos outros recursos de dados sensíveis.  
 

Machine-Generated Data:   

● It's Everywhere and There's a lot. 


Grandes  aviões  exigem  grandes  volumes de dados.. Se olharmos para todas as fontes de Big Data, os dados da 
máquina  são  a  maior  fonte  de  Big  Data.  A  ampla  disponibilidade  de  dispositivos  inteligentes  e  sua 
interconectividade levaram a um novo termo, a Internet das coisas. 
 

● Advantages. 
Por que o Big Data gerado pelas máquinas é útil?  
 

Voltando  ao  caso  do  avião,  se  observarmos  alguns  dos  sensores  que  contribuem  para  meio  terabyte de dados 
gerados  em  um  avião,  descobriremos  que  alguns  deles  vêm  de  acelerômetros  que  medem  a  turbulência. 
Também  existem  sensores  embutidos  nos  motores  para  temperatura,  pressão  e  muitos  outros  fatores 
mensuráveis para detectar mau funcionamento do motor.   

 
A  análise  constante  em  tempo  real de todos os dados coletados fornece ajuda no monitoramento e detecção de 
problema  a  40k  pés,  isso  é,  aproximadamente,  12k  metros  acima  do  solo.  Chamamos  esse  tipo  de 
processamento  analítico  in  situ.  Anteriormente,  nos  sistemas  tradicionais  de gerenciamento de banco de dados 
relacional,  os  dados  eram  frequentemente  movidos  para  o  espaço  computacional  para  processamento.  No 
espaço  de  Big  Data,  In-Situ  significa  levar  a  computação  para  onde  os  dados  estão  localizados ou, nesse caso, 
gerados.  
 

Resumindo,  como  o  maior  e  mais  rápido tipo de Big Data, os dados gerados por máquina podem permitir ações 


em  tempo  real  de  maneira  única  em  muitos  sistemas  e  processos.  No  entanto,  é  necessária  uma  mudança  de 
cultura para sua computação e ação em tempo real.  
 

Big Data Generated By People: 


● The Unstructured Challenge. 
As  pessoas  estão  gerando  enormes  quantidades  de  dados todos os dias por meio de suas atividades em vários 
sites  de  redes  sociais,  como  o  Facebook,  ou  sites de compartilhamento de fotos online, como o Instagram; além 
disso,  uma  quantidade  enorme de informações é gerada por meio de blogs e comentários, pesquisas na internet 
e  mensagens  de  texto,  e-mails  e  documentos  pessoais.  A  maioria  desses  dados  é  pesada  e  não estruturada, o 
que não está em conformidade com um modelo de dados bem definido.  
 

O  tamanho  dos  dados  não  estruturados  gerados  por  seres  humanos  traz  muitos  desafios,  dados  não 
estruturados  referem-se  a  dados  que  não  estão  em  conformidade  com  um  modelo  de  dados  predefinido,  é 
basicamente  tudo  o  que  não  armazenamos  em  um  sistema  tradicional  de  gerenciamento  de  banco  de  dados 
relacional. 
 

Exemplos  de  dados  não  estruturados  gerados  por  pessoas  incluem  textos,  imagens,  vídeos,  áudios,  pesquisas 
na  internet  e  e-mails.  Além  do  rápido  crescimento,  os  principais  desafios  dos  dados  não  estruturados  incluem 
vários  formatos  de  dados,  como  páginas  da  web,  imagens,  pdfs,  power  point,  XML  e  outros  formatos  criados 
principalmente para consumo humano.  
 

Outro  desafio  dos  dados  gerados  por  humanos  é  o  volume  e  a  rápida  geração  de  dados,  que  chamamos  de 
velocidade.  Além  disso,  a  confirmação  de  dados  não  estruturados  é  demorada  e  cara,  os  custos  e  o  tempo  do 
processo  de  aquisição,  armazenamento,  limpeza,  recuperação  e  processamento  de  dados  não  estruturados 
podem gerar bastante investimento antes que possamos começar a colher valor com esse processo.  
 

● How Is It Being Used? 


Embora  os  dados  não  estruturados,  especialmente  o  tipo  gerado  pelas  pessoas,  tenham  vários  desafios,  a boa 
notícia  é  que  a  cultura  comercial  de  hoje  está  mudando  para  enfrentar  esses  desafios  e  aproveitar  ao  máximo 
esses  dados.  As  ferramentas  de  Big  Data  precisam  ser  projetadas  do  zero  para  gerenciar  informações  não 
estruturadas e analisá-las.   

A  maioria  dessas  ferramentas  é  baseada  em  uma  estrutura  de  Big  Data  de  código aberto chamada Hadoop. O 
Hadoop  foi  projetado  para  suportar  o  processamento  de  grandes  conjuntos  de  dados  em  um  ambiente  de 
computação  distribuído.  Essa  definição  já  daria  uma  dica  de  que  ele  enfrenta  o  primeiro  desafio,  ou  seja,  o 
volume  de  informações  não  estruturadas.  O  Hadoop  pode  lidar  com  grandes  lotes  de  informações  distribuídas 
mas, na maioria das vezes, é necessário um processamento em tempo real de dados gerados por pessoas, como 
atualizações no Twitter. 
 

O  monitoramento  da  conformidade  financeira  é  outra  área  do  nosso  processamento  de  tempo  central, 
principalmente  para  reduzir  os  dados  do  mercado.  Dados  de  mídia  social  e  de  mercado  são  dois  tipos  do  que 
chamamos de dados de alta velocidade.   

Atualmente,  muitas  empresas  estão  usando  uma  abordagem  híbrida  na qual seus dados estruturados menores 


permanecem  em  seus  bancos  de  dados  relacionais  e  grandes  conjuntos  de  dados  não  estruturados  são 
armazenados  nos  bancos  de  dados  NoSQL  na  nuvem.  A  principal  vantagem  do  uso  de  NoSQL  é a capacidade 
de  organizar  os  dados  para  acesso  escalável,  de  acordo  com  o  problema  e  os  objetivos  relacionados  à  forma 
como os dados serão usados.   
 

Organization-Generated Data: 
● Structured But Often Siloed 
Esse  tipo  de  dado  é  o  mais  próximo  do  que  a  maioria  das  empresas  possui  atualmente, mas é considerado um 
pouco fora de moda em comparação com outros tipos de Big Data.  
 

Então, como as organizações produzem dados?  

Essa  resposta  é  exclusiva  da  organização  e  do  contexto,  cada  organização  possui  práticas  operacionais 
distintas  e  modelos  de  negócios,  que  resultam em uma variedade de plataformas de geração de dados. O tipo e 
a  fonte  de  dados  que  um  banco  obtém,  é  muito  diferente  do  que  o  fabricante  de  equipamentos  de  hardware 
obtém.  Em  resumo,  embora  os  dados  organizacionais  altamente  estruturados  sejam  muito  úteis  e  confiáveis e, 
portanto,  uma  fonte  valiosa  de  informações, as organizações devem prestar atenção especial à quebra dos silos 
de informações para aproveitar ao máximo seu potencial. 
 

● Benefits Come From Combining With Other Data Types 


Como algumas empresas estão se beneficiando do Big Data? 
Usando  o  Walmart  como  exemplo,  eles  coletam  dados  em  tweets  do  Twitter,  eventos  locais,  clima  local, 
compras  na  loja,  cliques  online  e  muitos  outros  dados  relacionados  a  vendas,  clientes  e  produtos.  Eles  usam 
esses  dados  para  encontrar  padrões,  como  quais  produtos  são  frequentemente  comprados  juntos  e  qual  o 
melhor produto a ser introduzido nas lojas para prever a demanda no local específico.  
 

No  geral,  aproveitando  o  Big  Data  e  a  análise,  o  Walmart  manteve  sua  posição  como  um  dos  principais 
varejistas.  Estudos  preveem que os gastos com tecnologias de Big Data aumentem drasticamente nos próximos 
cinco  anos.  Um  estudo  da  Bane  and  Company  sugere  que,  os  primeiros  a  adotar  a  análise  de  Big  Data 
ganharam uma liderança significativa no resto do mundo corporativo.  
 

O  que  elas  ganham  com  isso?  eficiência  operacional;  melhores  resultados  de  marketing;  maiores  lucros;  maior 
satisfação do cliente. 
 

The Key: Integrating Diverse Data 


É  preciso  incluir  a  integração  de  dados  na  prática  do  Big  Data.  A  integração de dados significa reunir dados de 
diversas  fontes  e  transformá-los  em  informações  coerentes  e  mais  úteis.  O  principal  objetivo  é  domar  ou 
gerenciar tecnicamente os dados e transformá-los em algo que você pode usar programaticamente.   

Mas, por que precisamos de integração de dados em primeiro lugar? 


 

Vamos  começar  focando  nas  diferenças  entre  grandes  conjuntos  de  dados  provenientes  de  diferentes  fontes. 
Você  pode  ter  dados  formatados  em  arquivos  simples, dados de banco de dados relacionais, dados codificados 
em XML ou JSON, ambos comuns para dados gerados pela internet.  
 

Esses  diferentes  formatos  e  modelos  são  úteis  porque  foram  projetados  para  expressar  dados  diferentes  de 
maneiras  únicas,  de  certa  forma,  diferentes  formatos  e  modelos  de  dados  tornam  o  Big  Data  mais  útil  e  mais 
desafiador, tudo ao mesmo tempo.   

Além  disso,  a  integração  de  conjuntos  de  dados  reduz  significativamente  a  complexidade  geral  dos  dados  no 
meu  produto  orientado  a  dados.  Os  dados  se  tornam  mais  disponíveis  para  uso  e  unificados como um sistema 
próprio. Uma vantagem dessa integração não é frequentemente mencionada. 
 

De  maneira  geral,  ao  integrar  diversos  fluxos  de  dados,  você  agrega  valor  aos  seus  Big  Data  e  aprimora  seus 
negócios antes mesmo de começar a analisá-los. 
 

SEMANA 2 
Characteristics Of Big Data 
Até  agora,  vimos  que  Big  Data  é  um  termo  genérico  usado  para  se  referir  a  qualquer  coleção  de  dados  tão 
grande  e  complexa  que  excede  a  capacidade  de  processamento  dos  sistemas  e  técnicas  convencionais  de 
gerenciamento de dados.   

Big Data é comumente caracterizado usando um número de Vs.  


 

● Volume 
Volume  é  a  dimensão  do  Big  Data  que  se relaciona com o tamanho absoluto do Big Data. Esse volume pode vir 
de  grandes  conjuntos de dados sendo compartilhados ou de muitos pequenos dados e eventos sendo coletados 
ao  longo  do  tempo.  A  ideia  é  entender  que  empresas  e  organizações  estão  coletando  e  aproveitando  grandes 
volumes  de  dados  para  melhorar  seus  produtos  finais.  Em  geral,  nos  negócios,  o  objetivo  é  transformar  esses 
dados em alguma forma de vantagem nos negócios.   

Como utilizamos volumes maiores de dados para melhorar a qualidade do produto final?
 

Dentre  os  desafios,  o  mais  óbvio  é  o  armazenamento.  A  medida  que  o  tamanho  dos  dados  aumenta, aumenta 
também a quantidade de espaço de armazenamento necessário para armazenar esses dados com eficiência.  
 

Os  desafios  de  trabalhar  com  volumes  incluem:  custo,  escalabilidade  e  desempenho  relacionados  ao 
armazenamento, acesso e processamento.  
 

● Velocidade 
A  velocidade  refere-se  à  velocidade  crescente  na  qual  o  Big  Data  é  criado  e  à  velocidade  crescente  na qual os 
dados  precisam  ser  armazenados  e  analisados.  O  processamento  de  dados em tempo real para corresponder à 
sua  taxa de produção à medida que é gerado é um objetivo específico da análise de Big Data. Por exemplo, esse 
tipo  de  recurso  permite  a  personalização  de  anúncios  nas  páginas  da  web  que  você  visita,  com  base  em  seu 
histórico  recente  de  pesquisas,  exibições  e  compras.  Se  uma  empresa  não  pode  tirar  proveito  dos  dados  à 
medida que são gerados ou com a velocidade da análise necessária, geralmente perde oportunidades.  
 

Ser  capaz  de  acompanhar  a  velocidade  do  Big  Data  e  analisá-lo  à  medida  que  é  gerado  pode  até  impactar  a 
qualidade  da vida humana. Sensores e dispositivos inteligentes que monitoram o corpo humano podem detectar 
anormalidades  em  tempo  real  e  desencadear  ações  imediatas,  potencialmente  salvando  vidas.  Esse  tipo  de 
processamento é o que chamamos de processamento em tempo real.  
 

É  importante  combinar  a  velocidade  do  processamento  com  a  velocidade  da  geração  de  informações  e  obter 
poder  de  decisão  em  tempo  real.  A  necessidade  de  ações  orientadas  por  dados  em  tempo  real  dentro  de  um 
caso de negócios é o que, no final, determina a velocidade da análise sobre Big Data.  
 

● Variedade 
Sendo  uma  forma  de  escalabilidade, mas, nesse caso, escala não se refere à grande quantidade de dados, e sim 
ao  aumento  da  diversidade.  Quando  pensamos  na variedade de dados, como cientistas de dados, pensamos na 
complexidade adicional resultante de mais tipos de dados que precisamos armazenar, processar e combinar.  
 

Variedade  estrutural  refere-se  à  diferença  na  representação  dos  dados,  por  exemplo,  um  sinal  de 
eletrocardiograma  é  muito  diferente  de  um  artigo  de  jornal,  uma  imagem  de satélite dos incêndios florestais da 
NASA é muito diferente dos tweets enviados por pessoas que estão vendo o fogo se espalhar.  
 

A  variedade  de  mídia  refere-se  ao  meio  em  que  os  dados  são  entregues.  O  áudio  de  um  discurso  versus  a 
transcrição do discurso pode representar a mesma informação em duas mídias diferentes.  
 

A  variedade  semântica  é  melhor  descrita  em  dois  exemplos.  Geralmente  usamos  unidades  diferentes  para 
quantidades que medimos. Às vezes também usamos medidas qualitativas.  
 

● Veracidade 
A  veracidade  é  muito  importante  para  tornar  o  Big  Data  operacional.  O Big Data pode ser barulhento e incerto, 
com  anormalidades  e  impreciso;  os  dados  não  tem  valor  se  não  forem  precisos.  Podemos  dizer  que,  embora  o 
Big  Data  ofereça  muitas  oportunidades  para  tomar  decisões ativadas por dados, as evidências fornecidas pelos 
dados  são  valiosas  apenas  se  os  dados  forem  de  qualidade  satisfatória. A  qualidade  pode  ser  definida  como 
  ​

uma função de duas variáveis diferentes:  

A  precisão  dos  dados,  confiabilidade,  confiabilidade  da  fonte  de  dados  e  como  os  dados  foram  gerados  são 
fatores importantes que afetam a qualidade dos dados.  

Dados  não  estruturados  na  internet  são  imprecisos  e  incertos,  além  disso,  o  Big  Data  de  alta  velocidade  deixa 
muito  pouco  ou  nenhum  tempo  para  o  ETL  e,  por  sua  vez,  dificulta  os  processos  de  garantia  de  qualidade dos 
dados.   

● Valência 
Valência  se  refere  à  conectividade,  quanto  mais  dados  conectados  estiverem,  maiores  serão  as  valências.  O 
termo  valência  vem  da  química,  em  química  falamos  sobre  elétrons  do  núcleo  e  elétrons  de  valência  de  um 
átomo,  os  elétrons  de  valência  estão  na  camada  mais  externa,  têm  o  nível  mais  alto  de  energia  e  são 
responsáveis pela ligação com outros átomos. Essa valência mais alta resulta em maior conectividade.  
 

Os  itens  de  dados  geralmente  são  conectados  diretamente  um ao outro. Uma cidade está conectada ao país ao 


qual  pertence,  dois  usuários  do  Facebook  estão  conectados  porque  são  amigos.  Os  dados  também  podem  ser 
conectados indiretamente. Dois cientistas estão conectados porque ambos são físicos.  
 

Para  uma  coleta  de  dados,  a  valência  mede  a  proporção  de  itens  de  dados  realmente  conectados  ao  número 
possível de conexões que podem ocorrer dentro da coleção.   

O aspecto mais importante da valência é que a conectividade de dados aumenta com o tempo.  
 

● Valor 
O  último  V  é  o  que  torna  o  Big Data relevante, tudo bem ter acesso a uma quantidade massiva de informação a 
cada  segundo,  mas  isso  não  adianta  nada  se  não  puder  gerar  valor.  É  importante  que  as  empresas  entrem  no 
negócio  do  Big  Data,  mas é sempre importante lembrar dos custos e benefícios e tentar agregar valor ao que se 
está fazendo. 
 

Todos  nós  já  ouvimos  a  ciência  de  dados  transformar  dados  em  percepções  ou  até  mesmo  ações.  Mas  o  que 
isso  realmente  significa?  A  ciência  de  dados  pode  ser  considerada  como  uma  base  para  pesquisas  empíricas 
onde  os  dados  são  usados  ​para  induzir  informações  para  observações.  Essas  observações  são  principalmente 
dados, no nosso caso, Big Data, relacionados a um caso empresarial ou científico.   
Insight  é  um  termo  que  usamos  para  nos  referir  aos  produtos  de  dados  da  ciência  de  dados.  Ele  é  extraído  de 
uma  grande  quantidade  de  dados  por meio de uma combinação de modelagem e análise exploratória de dados. 
As  perguntas  às  vezes  são  mais  específicas  e às vezes requer a observação dos dados e padrões contidos para 
chegar à pergunta específica. 
 

Outro  ponto  importante  a  reconhecer  é  que  a ciência de dados não é estática. Não é uma análise única. Envolve 


um  processo  em  que  os  modelos  gerados  para  levar  a  insights  são  constantemente  aprimorados  por  meio  de 
mais  evidências  empíricas,  ou  simplesmente  dados.  Quando  você  decide  o  que  vestir  para  o  dia  com  base  na 
previsão  do  dia,  você  está  agindo  com  base  nas  informações fornecidas a você. Assim, os líderes de negócios e 
tomadores de decisão agem com base nas evidências fornecidas por suas equipes de ciência de dados.  

Building a Big Data Strategy: 


Ao  construir  nossa  estratégia  de  Big  Data  data,  olhamos  para  o  que  temos,  quais  objetivos  de  alto  nível 
queremos  alcançar,  o  que  precisamos  fazer  para  chegar  lá e quais são as políticas em torno dos dados do início 
ao fim.  

Uma  estratégia  de Big Data começa com grandes objetivos. Observe que eu não disse que começa com a coleta 


de  dados  porque,  nesta  atividade,  estamos  realmente  tentando  identificar  quais  dados  são  úteis  e  por  que, 
concentrando-nos  em  quais  dados  coletar.  Cada  organização  ou  equipe  é  única.  Projetos  diferentes  têm 
objetivos diferentes.  

Portanto,  é  importante  primeiro  definir  quais  são  os  objetivos  da  sua  equipe.  Depois  de definir esses objetivos, 
ou,  de  um  modo  mais  geral,  as  perguntas  para  transformar  o  Big  Data  em  vantagem  para  o  seu negócio, você 
pode ver o que tem e analisar as lacunas e ações para chegar lá. 
 

É  importante  focar  nos  objetivos  de  curto  e  longo  prazo  nesta  atividade.  Esses  objetivos  também  devem  ser 
vinculados  à  análise  de  Big  Data  com  os  objetivos  de  negócios.  Para  fazer  o  melhor  uso  do  Big  Data,  cada 
empresa  precisa  avaliar  como  a  ciência  de  dados ou a análise de Big Data agregaria valor aos seus objetivos de 
negócios.  

Depois  de  estabelecer  que  a  análise  pode  ajudar  sua  empresa,  você  precisa  criar  uma  cultura  para  adotá-la.  O 
primeiro  e  mais  importante  ingrediente  para  um  programa  de  ciência  de  dados  bem-sucedido  é  a  adesão 
organizacional. Uma estratégia de Big Data deve ter comprometimento e patrocínio da liderança da empresa.   

As  metas  para  usar  a  análise  de  Big  Data  devem  ser  desenvolvidas  com  todas  as  partes  interessadas  e 
claramente  comunicadas  a  todos  na  organização.  Para  que  o  seu  valor  seja  compreendido  e  apreciado  por 
todos. A próxima etapa é construir sua equipe de ciência de dados.  
 

Outro  aspecto  da  definição  de  sua  estratégia  de  Big  Data  é  definir  as  políticas  em  torno  do  Big  Data.  Embora 
tenha  um potencial incrível para seus negócios, o uso de Big Data também deve levantar algumas preocupações 
no planejamento de longo prazo para dados. .  

Embora  seja  uma  questão  muito  complexa,  aqui  estão  algumas questões que você deve pensar em abordar em 


torno das políticas:  
 
 

1. Quais são as preocupações com a privacidade?  


2. Quem deve ter acesso ou controlar os dados?  
3. Qual é o tempo de vida dos dados, que às vezes é definido como volatilidade, anatomia de Big Data? 
4. Como os dados são selecionados e limpos? 
5. O que garante a qualidade dos dados em longo prazo? 
6. Como as diferentes partes da sua organização se comunicam usando esses dados? 
7. Existem normas legais e regulamentares em vigor?  

8.  

Resumindo,  ao  construir  uma  estratégia  de  Big  Data,  é  importante  integrar  a  análise  de Big Data aos objetivos 
de  negócios.  Comunique  objetivos  e  forneça  adesão  organizacional  para  projetos  de  análise.  Construa equipes 
com  talentos  diversos  e  estabeleça  uma  mentalidade  de  trabalho  em  equipe.  Remova  as  barreiras  ao  acesso e 
integração de dados.  

Finalmente,  essas  atividades  precisam  ser  iteradas  para  responder  a  novos  objetivos  de  negócios  e  avanços 
tecnológicos. 
 

How Does Big Data Science Happen? Five Components of Data Science.  
Data  Science  trata  de  extrair  conhecimento dos dados. No WorDS Center (words.sdsc.edu), definimos a ciência 
de  dados como uma arte multidisciplinar que combina pessoas, processos, plataformas computacionais e de Big 
Data, propósito específico de aplicativo e programabilidade.  
As  publicações  e  a  proveniência  dos  produtos  de  dados  que  levam  a  essas  publicações  também  são 
importantes  para  a  ciência  de  dados,  mas  começamos  definindo  5  P's  que  tomam  parte  significativa  nas 
atividades de ciência de dados. 
 

● Purpose:  o  objetivo  se  refere  ao  desafio  ou  conjunto  de  desafios  definidos  por  sua  estratégia  de  Big 
Data.  O  objetivo  pode  estar  relacionado  a  uma  análise  científica  com  uma  hipótese  ou  uma  métrica  de 
negócios que precisa ser analisada com base muitas vezes em Big Data. 
 

● People:  ​os  cientistas  de  dados  são  freqüentemente  vistos  como  pessoas  que  possuem  habilidades em 
uma  variedade  de  tópicos,  incluindo:  ciência  ou  conhecimento  do  domínio  de  negócios;  análise  usando 
estatística,  aprendizado  de  máquina  e  conhecimento  matemático;  gerenciamento  de  dados, 
programação  e  computação. Na prática, geralmente é um grupo de pesquisadores formado por pessoas 
com habilidades complementares. 
 

● Process:  ​Como  existe  uma  equipe  predefinida  com  um  propósito,  um  ótimo  lugar  para  essa  equipe 
começar é um processo no qual ela poderia iterar. Podemos simplesmente dizer, Pessoas com Propósito 
definirão  um  Processo  para  colaborar  e se comunicar! O processo de ciência de dados inclui técnicas de 
estatística, aprendizado de máquina, programação, computação e gerenciamento de dados.  
 

Um  processo  é  conceitual  no  início  e  define  o  conjunto  de  etapas  do  curso  e  como  todos  podem 
contribuir  para  isso.  Observe  que  processos  reutilizáveis  ​semelhantes  podem  ser  aplicáveis  ​a  muitos 
aplicativos com finalidades diferentes quando empregados em fluxos de trabalho diferentes.  
A  execução  de  tal  processo  de  ciência  de  dados  requer acesso a muitos conjuntos de dados, grandes e 
pequenos, trazendo novas oportunidades e desafios para a ciência de dados.  
 

Existem  muitas  etapas  ou  tarefas  de  ciência  de  dados,  como  coleta  de  dados,  limpeza  de  dados, 
processamento  /  análise  de  dados,  visualização  de  resultados,  resultando  em  um  fluxo  de  trabalho  de 
ciência  de  dados.  Os  processos  de  ciência  de  dados  podem  precisar  da  interação  do  usuário  e  outras 
operações  manuais,  ou  ser  totalmente  automatizados.  Os desafios para o processo de ciência de dados 
incluem:  
 

1)​ como integrar facilmente todas as tarefas necessárias para construir tal processo;  
2)  como  encontrar  os  melhores  recursos  de  computação  e  agendar  com  eficiência  as  execuções  do 
processo  para  os  recursos  com  base  na  definição  do  processo,  configurações  de  parâmetros  e 
preferências do usuário. 
 

● Platforms:  ​com  base  nas  necessidades  de  um  propósito  orientado  por  aplicativo  e  na  quantidade  de 
dados  e  computação  necessária  para  executar  esse  aplicativo,  diferentes plataformas de computação e 
dados  podem  ser  usadas  como  parte  do  processo  de  ciência  de  dados.  Essa  escalabilidade  deve  fazer 
parte de qualquer arquitetura de solução de ciência de dados. 
 

● Programmability:  ​a  captura  de  um  processo  de  ciência  de  dados  escalonável  requer  ajuda  de 
linguagens  de  programação,  por  exemplo,  R,  e  padrões,  por  exemplo,  MapReduce.  Ferramentas  que 
fornecem  acesso  a  tais  técnicas  de  programação  são  essenciais  para  tornar  o  processo  de  ciência  de 
dados programável em uma variedade de plataformas. 
 

The Process of Data Analysis: Steps in the Data Science Process 


 

● Step 1: Acquiring Data 


A  primeira  etapa  no processo de ciência de dados é adquirir os dados. A primeira etapa na aquisição de dados é 
determinar  quais  dados  estão  disponíveis.  Por  exemplo,  para gerenciamento de banco de dados é importante o 
conhecimento  em  bancos  de  dados  não-relacionais  e  relacionais.  Se  o  projeto  envolve  dados  provenientes  de 
arquivos  em  diversos formatos como CSV (Comma Separated Value) ou TSV (Tab Separated Values), o domínio 
de  bibliotecas  Python  e  R  são  requisitos.  Além  disso,  se  o  conjunto  de  dados  utilizado  for  em  grande  escala, é 
necessário usar de tecnologias Big Data (Apache Hadoop, Spark ou Flink).  

● Step 2: Exploring Data 


A  primeira  etapa  após  obter  seus  dados  é  explorá-los.  Explorar  os  dados  faz  parte  do  processo de preparação 
de  dados  de  duas  etapas.  Você  deseja  fazer  uma  investigação  preliminar  para  obter  uma melhor compreensão 
das  características  específicas  de  seus  dados.  Nesta  etapa,  você  estará  procurando  coisas  como  correlações, 
tendências  gerais  e  outliers.  Os  gráficos  de  correlação  podem  ser  usados  ​para  explorar  as  dependências  entre 
diferentes variáveis ​nos dados.   

Em  estatísticas,  um  outlier  é  um  ponto  de  dados  distante  de  outros  pontos  de  dados.  A plotagem de outliers o 
ajudará  a  verificar  se  há  erros  nos  dados  devido  às  medições.  Em  alguns  casos,  outliers  que  não  são  erros 
podem fazer com que você encontre um evento raro.  
Algumas  estatísticas  de  resumo  básicas  que  você  deve  calcular  para  seu  conjunto  de  dados  são  média, 
mediana, intervalo e desvio padrão. Observar essas medidas lhe dará uma ideia da natureza de seus dados.   
 

As  técnicas  de  visualização  também  fornecem  uma  maneira  rápida  e  eficaz  e,  em  geral,  muito  útil de examinar 
os  dados  nesta  etapa  de  análise  preliminar.  Os  gráficos  de  linha  são  úteis  para  ver  como  os  valores  em  seus 
dados  mudam  ao  longo  do  tempo.  Em  resumo,  o  que  você  obtém  ao  explorar  seus  dados  é  um  melhor 
entendimento da complexidade dos dados com os quais você precisa trabalhar. 
 

● Step 2-B: Pre-Processing Data 


Existem  dois  objetivos  principais  na  etapa  de  pré-processamento  de  dados.  O  primeiro  é  limpar  os dados para 
resolver  problemas  de  qualidade  de  dados  e  o  segundo  é  transformar  os  dados  brutos  para  torná-los 
adequados para análise.  
 

Uma  parte  muito  importante  da  preparação  de  dados  é  tratar  da  qualidade  dos  problemas  em  seus  dados.  Os 
dados do mundo real são confusos.   

Existem  muitos  exemplos  de  problemas  de  qualidade  com  dados  de  aplicativos  reais,  incluindo  dados 
inconsistentes,  como  um  cliente  com  dois  endereços  diferentes,  registros  de  clientes  duplicados,  por  exemplo, 
endereços de clientes registrados em dois locais de vendas diferentes. 
 

Para abordar questões de qualidade de dados de forma eficaz, é importante conhecer o aplicativo, como a forma 
como  os  dados  foram  coletados,  a  população  de  usuários  e  os  usos  pretendidos  do  aplicativo.  Esse 
conhecimento  de  domínio  é  essencial  para tomar decisões informadas sobre como lidar com dados incompletos 
ou incorretos.  
 

A  segunda  parte  da  preparação  de  dados  é  manipular  os  dados  limpos  no  formato  necessário  para  análise.  A 
preparação  de  dados  é  uma  parte  muito  importante  do  processo  de  ciência  de  dados.  Na  verdade,  é  aqui  que 
você gastará a maior parte do tempo em qualquer esforço de ciência de dados.   

● Step 3: Analyzing Data 


Agora  que  você  tem  seus  dados  bem  preparados,  a  próxima  etapa  é  analisá-los.  A  análise  de dados envolve a 
construção  de  um  modelo  a  partir  de seus dados, que é chamado de dados de entrada. As principais categorias 
de técnicas de análise são: classificação, regressão, agrupamento, análise de associação e análise de gráfico. 
 

Na  ​classificação​,  o  objetivo  é  prever  a  categoria  dos  dados  de  entrada.  Um  exemplo  disso  é  prever  o  tempo 
como sendo ensolarado, chuvoso, ventoso ou nublado neste caso.  
Quando  seu  modelo  precisa  prever  um  valor  numérico  em vez de uma categoria, a tarefa se torna um problema 
de  ​regressão​,  um  exemplo  de  regressão  é  prever  o  preço  de  uma  ação;  o  preço  da  ação  é  um  valor  numérico, 
não uma categoria. Portanto, esta é uma tarefa de regressão em vez de uma tarefa de classificação.  
 

No  ​agrupamento​,  o  objetivo  é  organizar  itens  semelhantes  em  grupos.  Um  exemplo  é  agrupar  a  base  de 
clientes  de  uma  empresa  em  segmentos  distintos  para  um  marketing  direcionado  mais  eficaz,  como  idosos, 
adultos e adolescentes.  
 

O  objetivo  da  ​análise  de  associação  ​é criar um conjunto de regras para capturar associações dentro de itens ou 


eventos.  As  regras  são  usadas  para  determinar  quando  os  itens  ou  eventos  ocorrem  juntos.  Uma  aplicação 
comum  de  análise  de  associação  é  conhecida  como  análise  de  cesta  de  compras,  que  é  usada para entender o 
comportamento  de  compra  do  cliente.  Por  exemplo,  a  análise  de  associação  pode  revelar  que  os  clientes 
bancários  que  têm certificados de contas de depósito, CDs de fiança, também tendem a se interessar por outros 
veículos de investimento, como contas do mercado monetário. 
 

Quando  seus  dados  podem  ser  transformados  em  uma  representação gráfica com nós e links, você deseja usar 


a  análise  de  gráfico  para  analisar  seus  dados.  Esse  tipo  de  dado  surge  quando  você  tem  muitas  entidades  e 
conexões entre essas entidades, como redes sociais.  
 

● Step 4: Communicating Results 


A  quarta  etapa  em  nosso  processo  de  ciência  de  dados  é  relatar  os  insights  obtidos  com  nossa  análise. Esta é 
uma  etapa  muito  importante  para  comunicar  seus  insights  e  argumentar  quais  ações  devem  ser  tomadas.  A 
primeira  coisa  a  fazer  é  examinar  os  resultados  da  sua  análise  e  decidir  o  que  apresentar  ou  relatar  como  o 
maior valor ou o maior conjunto de valores.  
Ao decidir o que apresentar, você deve se perguntar o seguinte:  
 

1) Quais são os principais resultados? 


2) Que valor agregado esses resultados fornecem ou como o modelo pode agregar ao aplicativo? 
3) Como os resultados se comparam aos critérios de sucesso determinados no início do projeto? 
 

As respostas a essas perguntas são os itens que você precisa incluir em seu relatório ou apresentação. 
 
● Step 5: Turning Insights into Action  
Agora  que  você  avaliou  os  resultados  de  sua análise e gerou relatórios sobre o valor potencial dos resultados, a 
próxima  etapa  é  determinar  que  ação  ou  ações devem ser tomadas, com base nos insights obtidos. Lembra por 
que  começamos  a  reunir  os  dados  e analisá-los em primeiro lugar? Para encontrar insights acionáveis ​em todos 
esses conjuntos de dados, para responder a perguntas ou para melhorar os processos de negócios.   

As  partes  interessadas  precisam  ser  identificadas  e  envolvidas  nessa  mudança.  Assim  como  acontece  com 
qualquer  mudança  de  melhoria  de  processo,  precisamos  monitorar  e  medir  o  impacto  da  ação  no  processo  ou 
aplicativo.  Depois  de  definir  essas  ações  em  tempo  real,  precisamos  ter  certeza  de  que  existem  sistemas 
automatizados ou processos para executar tais ações e fornecer recuperação de falha em caso de problemas. 
 

Resumindo,  Big  Data  e ciência de dados só são úteis se os insights puderem ser transformados em ação e se as 


ações forem definidas e avaliadas com cuidado. 
 

SEMANA 3 
Basic Scalabre Computing Concepts: What is a Distribuited File System? 
A  necessidade  de  armazenar  informações  em  arquivos  vem  de  uma  necessidade  maior  de  armazenar 
informações  em  longo  prazo.  Dessa  forma,  a  informação  vive  depois  que  o  programa de computador, ou o que 
chamamos de processo, que a produziu termina.  
 

Se  não  tivermos  arquivos,  nosso  acesso  a  tais  informações  não  seria  possível  uma  vez  que  um  programa  as 
utilizasse  ou  produzisse.  Mesmo  durante  o  processo,  podemos  precisar  armazenar  grandes  quantidades  de 
informações que não podemos armazenar nos componentes do programa ou na memória do computador. 
 

Além  disso,  quando  os  dados  estão  em  um  arquivo,  vários  processos  podem  acessar  as  mesmas  informações, 
se  necessário.  Por  todos  esses  motivos,  armazenamos  informações  em  arquivos  de  um  disco  rígido.  Muitos 
desses  arquivos  são  gerenciados  pelo  seu  sistema  operacional,  como  Windows  ou  Linux.  O  modo  como  o 
sistema  operacional  gerencia  os  arquivos  é  denominado  sistema  de  arquivos. O  modo como essas informações 
 ​

são  armazenadas  nas  unidades  de  disco  tem  alto  impacto  na  eficiência  e  na  velocidade  de  acesso  aos  dados, 
principalmente no caso de Big Data.   

Embora  os  arquivos  tenham  endereços  exatos  para  suas  localizações  no  drive,  referindo-se  às  unidades  de 
dados  de  sequência  desses  blocos,  eles  são  chamados  de  estrutura  plana,  ou  construção  de  hierarquia  de 
registros  de  índice,  isso  é  chamado  de  banco  de  dados.  Eles  também  têm  nomes  simbólicos  legíveis  por 
humanos,  geralmente  seguidos  por  uma  extensão.  As  extensões  informam  que  tipo  de  arquivo  é,  em  geral. 
Programas e usuários podem acessar arquivos com seus nomes. O conteúdo de um arquivo pode ser executável 
numérico, alfabético, alfanumérico ou binário. 
 

Conjuntos  de  dados,  ou  partes  de  um  conjunto  de  dados,  podem  ser  replicados  nos  nós  de  um  sistema  de 
arquivos  distribuído.  Como  os  dados  já  estão  nesses  nós,  a  análise  de  partes  dos  dados  é  necessária  em  um 
modo paralelo de dados, a computação pode ser movida para esses nós.  

Além  disso,  os  sistemas  de  arquivos  distribuídos  replicam  os  dados  entre  os  racks e também os computadores 
distribuídos  em  regiões geográficas. A replicação de dados torna o sistema mais tolerante a falhas. Isso significa 
que, se algum nó ou um rack cair, existem outras partes do sistema, os mesmos dados podem ser encontrados e 
analisados. 
 

A  replicação  de  dados  também  ajuda  a  dimensionar  o  acesso  a  esses  dados  por  muitos  usuários. 
Freqüentemente,  se  os  dados  forem  populares,  muitos  processos  do  leitor  desejarão ter acesso a eles. Em uma 
replicação  altamente  paralelizada,  cada  leitor  pode  obter  seu  próprio  nó  para  acessar  e  analisar  dados.  Isso 
aumenta o desempenho geral do sistema.  
 

Observe  que o problema de ter essa replicação distributiva é que é difícil fazer alterações nos dados ao longo do 
tempo.  No  entanto,  na  maioria  dos  sistemas  de  big  data, os dados são gravados uma vez e as atualizações dos 
dados são mantidas como conjuntos de dados adicionais ao longo do tempo.   

Scalabre Computing Over the Internet 


A  maior  parte  da  computação  é  feita  em  um único nó de computação. Se a computação precisa de mais do que 
um  nó  ou  processamento  paralelo,  como  muitos  problemas  de  computação  científica,  usamos  computadores 
paralelos.  Esse  tipo  de  computador  especializado  é  muito  caro  em  comparação  com  seu  primo  mais  recente,  o 
cluster de commodities.  
 

O  termo  cluster  de  commodity é frequentemente ouvido em conversas de Big Data. Os clusters de commodities 


são  computadores  paralelos  acessíveis  com  um  número  médio  de  nós  de  computação.  Eles  não  são  tão 
poderosos  quanto  os  computadores  paralelos  tradicionais  e  geralmente  são  construídos  a  partir  de  nós menos 
especializados. Em clusters de commodities, os nós de computação são agrupados em racks.  
 

A  computação  em  um  ou  mais  desses  clusters  em  uma  rede  local  ou  Internet  é  chamada  de  computação 
distribuída.  Essas  arquiteturas  permitem  o  que  chamamos  de  paralelismo  de  dados.  No  paralelismo  de  dados, 
muitos  trabalhos  que  não  compartilham  nada  podem  funcionar  em  diferentes  conjuntos  de dados ou partes de 
um conjunto de dados. Esse tipo de paralelismo às vezes é chamado de paralelismo de nível de trabalho.   

Grandes volumes e variedades de Big Data podem ser analisados ​usando este modo de paralelismo, alcançando 
escalabilidade,  desempenho  e  redução  de  custos.  Como  você  pode  imaginar,  existem  muitos  pontos  de  falha 
dentro  dos  sistemas.  A  capacidade  de  se  recuperar  de  tais  falhas  é  chamada  de  tolerância  a  falhas.  Para 
tolerância  a  falhas  de  tais  sistemas,  surgiram  duas  soluções  bacanas,  ou  seja,  armazenamento  de  dados 
redundantes e reinicialização de tarefas paralelas individuais com falha. 
 

Programming Models for Big Data 


Vimos  que  a  computação  escalável  pela Internet para alcançar escalabilidade paralela de dados para aplicativos 
de  Big  Data  agora  é  uma  possibilidade.  Graças  aos  clusters  de  commodities.  Os  clusters  de  mercadoria 
econômicos,  juntamente  com  os  avanços  em  sistemas  de  arquivos  distribuídos  para  mover  a computação para 
os dados, fornecem um potencial para conduzir análises escalonáveis ​de Big Data.  
 

Um  modelo  de  programação  é  uma  abstração  ou  maquinário  ou  infraestrutura  existente.  É  um  conjunto  de 
bibliotecas  de  tempo  de  execução  abstratas  e  linguagens  de  programação  que  formam  um  modelo  de 
computação.   

Este  nível  de  abstração  pode  ser  de  baixo  nível,  como  em  linguagem  de  máquina  em  computadores,  ou  muito 
alto  como  em  linguagens  de  programação  de  alto  nível,  por  exemplo,  Java.  Portanto,  podemos  dizer  que,  se  a 
infraestrutura  de  ativação  para  a  análise  de  Big  Data  são  sistemas  de  arquivos  distribuídos,  conforme 
mencionamos,  então  o  modelo  de  programação  para  Big  Data  deve  permitir  a  programação  das  operações 
dentro dos sistemas de arquivos distribuídos.  
 

Com  base  em tudo o que discutimos até agora, vamos descrever os requisitos para modelos de programação de 


Big Data.   

Em  primeiro  lugar,  esse  modelo  de  programação  para  Big  Data  deve  suportar  operações  comuns  de  Big  Data, 
como  a  divisão  de  grandes  volumes  de  dados.  Isso  significa  particionar  e  colocar  os  dados  dentro  e  fora  da 
memória do computador junto com um modelo para sincronizar os conjuntos de dados posteriormente.  
 

O  acesso  aos  dados  deve  ser  realizado  de  forma  rápida.  Deve  permitir uma distribuição rápida para nós dentro 
de  um  rack  e  estes  são,  potencialmente,  os  nós  de  dados  para  os  quais  movemos  a  computação. Isso significa 
agendar  várias tarefas paralelas de uma vez. Também deve permitir a confiabilidade da computação e tolerância 
total  a  falhas.  Isso  significa  que  ele  deve  permitir  replicações  programáveis  ​e  recuperação  de  arquivos  quando 
necessário.  Deve  ser  facilmente  escalonável  para  as  notas  distribuídas  onde  os  dados  são  produzidos.  Ele 
também deve permitir a adição de novos recursos para aproveitar as vantagens de computadores distributivos e 
escalar  para  mais  dados  ou  mais  rápido  sem  perder  desempenho,  uma  vez  que  há  uma  variedade  de  tipos 
diferentes de dados, como documentos, gráficos, tabelas, valores-chave, etc.  
 

Um  modelo  de  programação  deve  permitir  operações  sobre  um determinado conjunto desses tipos. Nem todos 


os  tipos  de  dados podem ser suportados por um modelo específico, mas os modelos devem ser otimizados para 
pelo menos um tipo. 
 

MapReduce  é  um  modelo  de  programação  de  Big  Data  que  oferece  suporte  a  todos  os  requisitos  de 
modelagem  de  Big  Data  que  mencionamos.  Ele  pode  modelar  o  processamento  de  grandes  dados,  dividir 
complicações  em  diferentes  tarefas  paralelas  e  fazer  uso  eficiente  de  grandes  clusters  de  mercadorias  e 
sistemas  de  arquivos  distribuídos.  Além  disso,  ele  abstrai  os  detalhes  de  paralelização,  tolerância  total, 
distribuição de dados, monitoramento e balanceamento de carga. 
 

HADOOP: Why, Where and Who? 


As  estruturas  e  aplicativos  do  ecossistema  Hadoop  que  descreveremos  neste  módulo  têm  vários  temas  e 
objetivos  abrangentes.  Primeiro,  eles  fornecem  escalabilidade  para  armazenar  grandes  volumes  de  dados  em 
hardware  comum;  conforme  o  número  de  sistemas  aumenta,  aumenta  também  a  chance  de  travamentos  e 
falhas de hardware.   

Um  segundo  objetivo,  suportado  pela  maioria  das  estruturas  no  ecossistema  Hadoop,  é  a  capacidade  de  se 
recuperar  desses  problemas de maneira harmoniosa. Além disso, como mencionamos antes, o Big Data vem em 
uma  variedade  de  sabores,  como  arquivos  de  texto,  gráfico  de  redes  sociais,  streaming  de  dados  do  sensor  e 
imagens raster.   
Um  terceiro  objetivo  para  o  ecossistema  Hadoop,  então,  é  a  capacidade  de  lidar  com  esses  diferentes tipos de 
dados para qualquer tipo de dados.   

Um  quarto  objetivo  do  ecossistema  Hadoop  é  a  capacidade  de  facilitar  um  ambiente  compartilhado.  Uma  vez 
que  mesmo  clusters  de  tamanho modesto podem ter muitos núcleos, é importante permitir que vários trabalhos 
sejam executados simultaneamente.  
 

Outro  objetivo  do  ecossistema  Hadoop  é  fornecer  valor  para  sua  empresa.  O  ecossistema  inclui  uma  ampla 
gama de projetos de código aberto apoiados por uma grande comunidade ativa. 
 

MapReduce: Simple Programming for Big Results 


MapReduce  é  um  modelo  de  programação  para  o  ecossistema  Hadoop.  Ele  depende  do  YARN  para agendar e 
executar  o  processamento  paralelo  nos  blocos  de  arquivos  distribuídos  no  HDFS.  O  modelo  de  programação 
MapReduce  simplifica  muito  a  execução  de  código  em  paralelo,  já  que  você  não  precisa  lidar  com  nenhum 
desses  problemas.  Em  vez  disso,  você só precisa criar, mapear e reduzir tarefas e não precisa se preocupar com 
vários threads, sincronização ou problemas de simultaneidade. 
 

O  modelo  MapReduce  requer  que  os  mapas  e  reduza  sejam  executados  independentemente  um do outro. Isso 
simplifica  muito  seu  trabalho  como  designer,  já  que  você  não precisa lidar com problemas de sincronização. No 
entanto, isso significa que os cálculos que têm dependências não podem ser expressos com MapReduce. 
 

Cloud Computing: An Important Big Data Enabler 


A  ideia  principal  por  trás  da  computação  em  nuvem  é  transformar  a  infraestrutura  de  computação  em  uma 
mercadoria.  Portanto,  os  desenvolvedores  de  aplicativos  podem  se  concentrar  em resolver desafios específicos 
de  aplicativos  em  vez  de  tentar  construir  uma  infraestrutura  para  a  execução.  Então,  como  isso  acontece? 
Podemos  simplesmente  definir  um  serviço  de  computação  em  nuvem,  como  um  serviço  de  aluguel  de 
computação. Você aluga o que deseja e devolve após o uso. 
 

Nuvem  permite  que  você esqueça os problemas de gerenciamento de recursos e permite que você se concentre 


nos  produtos  de  sua empresa ou experiência de domínio com custo mínimo. Em resumo, a nuvem faz o trabalho 
pesado,  para  que  sua  equipe  possa  extrair  valor  dos  dados  ficando  atolada  nos  detalhes  da  infraestrutura.  A 
nuvem fornece soluções convenientes e viáveis ​para dimensionar seu protótipo para um aplicativo completo.  
 

Cloud Service Models: An Exploration of Choices 


Infraestrutura  como  serviço,  plataforma  como  serviço  e  aplicativo  como  serviço  são  três  modelos  de serviço de 
classe  principal  que  estão  sendo  usados  ​com  sucesso.  A  escolha  de  um  vai  depender  do  número  de  variáveis 
​que  são  os  objetivos  da  empresa.  Esses  três  modelos inspiraram o surgimento de muitos modelos semelhantes 
em torno da computação em nuvem. 
 

Value From Hadoop and Pre-Built Hadoop Images 


O  uso  de  pacotes  de  software  pré-construídos  traz  vários  benefícios  e  pode  acelerar  significativamente  seus 
projetos  de  Big  Data.  Mesmo  pequenas  equipes  podem  criar  protótipos,  implantar  e  validar  rapidamente  suas 
ideias de projeto. 
 

As  soluções  analíticas  desenvolvidas  podem  ser  dimensionadas para volumes maiores e aumentar a velocidade 


dos  dados  em  questão  de  horas.  Essas  empresas  também  fornecem  soluções  de  nível  empresarial  para 
aplicativos grandes e completos.  
 

Um  benefício  adicional  é  que  existem  muitas  empresas  que  fornecem  soluções  prontas.  Isso  significa  muitas 
opções para você escolher a mais adequada ao seu projeto. 
 

Você também pode gostar