Introduction To Big Data

INTRODUCTION TO BIG DATA
University of California San Diego

Traduzido por Gisele Cristina Costa Jardim

SEMANA 1
What Launched The Big Data era?
Pense nisso: hoje você pode comprar um disco rígido para armazenar todas as músicas do mundo por apenas
US$600, essa é uma incrível capacidade de armazenamento sobre todas as formas anteriores de
armazenamento de música. Os telefones, e os aplicativos que instalamos neles, também são uma fonte de Big
Data. Tudo isso leva a projeções de crescimento sério: 40% em dados globais por ano e 5% em gastos globais
de TI. Esses dados certamente levaram o campo da ciência de dados a começar a permanecer em si e no mundo
dos negócios de hoje.

Mas há algo mais contribuinte para o poder de catalisador da ciência de dados, e é chamado de computação em

nuvem. Chamamos isso de computação sob demanda. A computação em nuvem é uma das maneiras pelas
quais a computação se tornou algo que podemos fazer a qualquer hora e em qualquer lugar.
Você pode se surpreender ao saber que alguns de seus aplicativos favoritos são de empresas administradas em

cafeterias. Essa nova habilidade, combinada com nossa quantidade de dados, nos dá a oportunidade de realizar
análises de dados inovadoras, dinâmicas e escalonáveis, para nos contar coisas novas sobre nosso mundo e
sobre nós mesmos.

Para resumir, a grande quantidade de dados combinada com a capacidade de processamento computacional a

qualquer hora, em qualquer lugar, tem estado no centro da origem da era do Big Data.

What Makes Big Data Valuable?

O Big Data nos permite construir modelos melhores, que produzem resultados de maior precisão, e que você
ouça a voz de cada consumidor. Agora, muitas empresas, incluindo Walmart, usam essas informações para
personalizar suas comunicações com seus clientes, o que, por sua vez, leva a atender melhor às expectativas
dos consumidores e clientes mais felizes.

Basicamente, o Big Data permitiu o marketing personalizado. Os consumidores estão copiosamente gerando
dados acessíveis ao público por meio de sites de mídia social, como o Twitter; com esses dados, as empresas
podem ver seu histórico de compras, o que pesquisaram, o que assistiram, onde estiveram e o que os
interessam por meio de curtidas e compartilhamentos.

Vejamos alguns exemplos de como as empresas estão colocando essas informações para criar melhores
campanhas de marketing: uma área com que estamos familiarizados são os mecanismos de recomendação,
esses mecanismos aproveitam os padrões do usuário e os recursos do produto para prever a melhor
correspondência do produto para enriquecer a experiência do usuário.

Outra técnica usada pelas empresas é a análise de sentimentos (mineração de opinião) ou, em termos simples, a
análise dos sentimentos em torno de eventos e produtos. Quando compramos um produto, não só podemos ler
os comentários, como também podemos escrever, dessa forma, outros clientes podem ser informados.
Os canais de notícias são preenchidos com a análise do feed do Twitter toda vez que ocorre um evento de
importância, como eleições. As marcas utilizam a análise de sentimentos para entender como os clientes se
relacionam com seus produtos, de maneira positiva, negativa e neutra.

A publicidade móvel é um mercado enorme para as empresas, as plataformas utilizam os sensores em
dispositivos móveis, como GPS, e fornecem anúncios baseados em localização em tempo real e, oferecem
descontos com base nesse dilúvio de dados.

Vamos falar agora sobre como o comportamento global do consumidor pode ser usado para o crescimento do
produto. Estamos mudando o marketing personalizado para o comportamento do consumidor como um todo.
Toda empresa quer entender o comportamento coletivo de seus consumidores para capturar o cenário em
constante mudança. Vários produtos de Big Data permitem isso, desenvolvendo modelos para capturar o
comportamento do usuário e permitir que as empresas tenham como alvo o público certo para o seu produto.

Algumas aplicações:
Com os rápidos avanços na tecnologia de sequenciamento de genoma, o setor de ciências da vida está
passando por um enorme empate no Big Data biomédico. Esses dados biomédicos estão sendo utilizados por
muitas aplicações em pesquisa e medicina personalizada. Antes dessa medicina, a maioria dos pacientes sem
tipo e estágio específico de câncer, por exemplo, recebia o mesmo tratamento, que funcionava melhor para
alguns do que para outros; agora, a pessoa pode receber um plano de tratamento padrão ou a recomendação de
algum tipo de tratamento personalizado.

Outra aplicação de Big Data vem da malha interconectada de grande número de sensores implantados em
cidades inteligentes. A análise dos dados gerados pelos sensores em tempo real permite que as cidades
ofereçam melhor qualidade de serviço aos habitantes, e reduza os efeitos indesejados, como poluição,
congestionamento do tráfego e custo acima do ideal na prestação de serviços urbanos.

Saving Lives With Big Data

Como já vimos, existem muitos aplicativos interessantes que estão sendo ativados pela era do Big Data, existem
diversas aplicações de ciência de dados de grande desafio em todas as áreas da ciência e engenharia; o que é
comum a todos esses aplicativos é a maneira única de reunir novos modos de pesquisa de dados e computação.

Poderíamos, por exemplo, utilizar Big Data para monitorar, prever e gerenciar uma tempestade, em busca de
evitar possíveis incêndios, como acontece em San Diego. Alguns fluxos de incêndios florestais são gerados
pelas pessoas através de dispositivos que eles carregam, muitos vêm de sensores e satélites, coisas que medem
fatores ambientais, e alguns vêm de dados organizacionais, incluindo mapas de áreas e bancos de dados de
conteúdo de campo, que arquivam quanto registra a vegetação e outros tipo de combustível no caminho de um
possível incêndio.
Mas por que o Big Data pode ajudar? porque novas abordagens e respostas podem ser adotadas se pudermos
integrar esses diversos fluxos de dados, muitas dessas fontes de dados já existem há algum tempo, mas o que
falta atualmente no gerenciamento de desastres é uma integração dinâmica do sistema de redes de sensores
em tempo real, imagens de satélite, ferramentas de simulação de incêndio, conectividade a centros de comando
de emergência e tudo isso antes, durante e após uma tempestade.

Uma grande parte dos dados sobre incêndios é gerada pelo público em sites de mídia, como o Twitter, que
suportam recursos de compartilhamento de fotos. Imagine sintetizar todas as fotos no Twitter sobre um
incêndio em andamento ou verificar o sentimento do público em torno dos limites de um incêndio. Depois de ter
o acesso, podemos monitorá-lo ou somente visualizá-lo.

Using Big Data to Help Patients

Vejamos um segundo exemplo. A medicina de precisão é uma área voltada para uma pessoa individualmente,
analisando sua genética, seu ambiente e suas atividades diárias, para que possa detectar ou prever um
problema de saúde precocemente. Certamente, equipamentos hospitalares digitais produzem dados de
sensores há anos, mas era improvável que os dados fossem armazenados ou compartilhados, e muito menos
analisados retrospectivamente. Agora, temos mais sensores e muitos outros lugares que capturam e coletam
informações para serem armazenadas e analisadas. A análise dos serviços de saúde tem o potencial de reduzir
os custos do tratamento, prever surtos de epidemias, evitar doenças e melhorar a qualidade de vida em geral.

A Sentiment Analysis Sucess Story: Meltwater helping Danone

Uma empresa de inteligência de mídia, ajudou a Danone a usar análise de sentimentos. A empresa ajudou a
Danone a monitorar as opiniões nas mídias sociais para uma de suas campanhas de marketing, eles foram
capazes de medir o que foi impactante e o que não foi, por meio desse monitoramento.

Where Does Big Data Come From?

O Big Data geralmente se resume a algumas variedades de dados geradas por máquinas, pessoas e
organizações. Com os dados gerados por máquinas, nos referimos aos dados gerados a partir de sensores em
tempo real em máquinas ou veículos industriais que registram o comportamento do usuário online, sensores
ambientais ou rastreadores pessoais de saúde, e muitos outros recursos de dados sensíveis.

Machine-Generated Data:
● It's Everywhere and There's a lot.

Grandes aviões exigem grandes volumes de dados.. Se olharmos para todas as fontes de Big Data, os dados da
máquina são a maior fonte de Big Data. A ampla disponibilidade de dispositivos inteligentes e sua
interconectividade levaram a um novo termo, a Internet das coisas.

● Advantages.
Por que o Big Data gerado pelas máquinas é útil?

Voltando ao caso do avião, se observarmos alguns dos sensores que contribuem para meio terabyte de dados
gerados em um avião, descobriremos que alguns deles vêm de acelerômetros que medem a turbulência.
Também existem sensores embutidos nos motores para temperatura, pressão e muitos outros fatores
mensuráveis para detectar mau funcionamento do motor.

A análise constante em tempo real de todos os dados coletados fornece ajuda no monitoramento e detecção de
problema a 40k pés, isso é, aproximadamente, 12k metros acima do solo. Chamamos esse tipo de
processamento analítico in situ. Anteriormente, nos sistemas tradicionais de gerenciamento de banco de dados
relacional, os dados eram frequentemente movidos para o espaço computacional para processamento. No
espaço de Big Data, In-Situ significa levar a computação para onde os dados estão localizados ou, nesse caso,
gerados.

Resumindo, como o maior e mais rápido tipo de Big Data, os dados gerados por máquina podem permitir ações

em tempo real de maneira única em muitos sistemas e processos. No entanto, é necessária uma mudança de
cultura para sua computação e ação em tempo real.

Big Data Generated By People:

● The Unstructured Challenge.
As pessoas estão gerando enormes quantidades de dados todos os dias por meio de suas atividades em vários
sites de redes sociais, como o Facebook, ou sites de compartilhamento de fotos online, como o Instagram; além
disso, uma quantidade enorme de informações é gerada por meio de blogs e comentários, pesquisas na internet
e mensagens de texto, e-mails e documentos pessoais. A maioria desses dados é pesada e não estruturada, o
que não está em conformidade com um modelo de dados bem definido.

O tamanho dos dados não estruturados gerados por seres humanos traz muitos desafios, dados não
estruturados referem-se a dados que não estão em conformidade com um modelo de dados predefinido, é
basicamente tudo o que não armazenamos em um sistema tradicional de gerenciamento de banco de dados
relacional.

Exemplos de dados não estruturados gerados por pessoas incluem textos, imagens, vídeos, áudios, pesquisas
na internet e e-mails. Além do rápido crescimento, os principais desafios dos dados não estruturados incluem
vários formatos de dados, como páginas da web, imagens, pdfs, power point, XML e outros formatos criados
principalmente para consumo humano.

Outro desafio dos dados gerados por humanos é o volume e a rápida geração de dados, que chamamos de
velocidade. Além disso, a confirmação de dados não estruturados é demorada e cara, os custos e o tempo do
processo de aquisição, armazenamento, limpeza, recuperação e processamento de dados não estruturados
podem gerar bastante investimento antes que possamos começar a colher valor com esse processo.

● How Is It Being Used?

Embora os dados não estruturados, especialmente o tipo gerado pelas pessoas, tenham vários desafios, a boa
notícia é que a cultura comercial de hoje está mudando para enfrentar esses desafios e aproveitar ao máximo
esses dados. As ferramentas de Big Data precisam ser projetadas do zero para gerenciar informações não
estruturadas e analisá-las.
A maioria dessas ferramentas é baseada em uma estrutura de Big Data de código aberto chamada Hadoop. O
Hadoop foi projetado para suportar o processamento de grandes conjuntos de dados em um ambiente de
computação distribuído. Essa definição já daria uma dica de que ele enfrenta o primeiro desafio, ou seja, o
volume de informações não estruturadas. O Hadoop pode lidar com grandes lotes de informações distribuídas
mas, na maioria das vezes, é necessário um processamento em tempo real de dados gerados por pessoas, como
atualizações no Twitter.

O monitoramento da conformidade financeira é outra área do nosso processamento de tempo central,
principalmente para reduzir os dados do mercado. Dados de mídia social e de mercado são dois tipos do que
chamamos de dados de alta velocidade.
Atualmente, muitas empresas estão usando uma abordagem híbrida na qual seus dados estruturados menores

permanecem em seus bancos de dados relacionais e grandes conjuntos de dados não estruturados são
armazenados nos bancos de dados NoSQL na nuvem. A principal vantagem do uso de NoSQL é a capacidade
de organizar os dados para acesso escalável, de acordo com o problema e os objetivos relacionados à forma
como os dados serão usados.

Organization-Generated Data:
● Structured But Often Siloed
Esse tipo de dado é o mais próximo do que a maioria das empresas possui atualmente, mas é considerado um
pouco fora de moda em comparação com outros tipos de Big Data.

Então, como as organizações produzem dados?
Essa resposta é exclusiva da organização e do contexto, cada organização possui práticas operacionais
distintas e modelos de negócios, que resultam em uma variedade de plataformas de geração de dados. O tipo e
a fonte de dados que um banco obtém, é muito diferente do que o fabricante de equipamentos de hardware
obtém. Em resumo, embora os dados organizacionais altamente estruturados sejam muito úteis e confiáveis e,
portanto, uma fonte valiosa de informações, as organizações devem prestar atenção especial à quebra dos silos
de informações para aproveitar ao máximo seu potencial.

● Benefits Come From Combining With Other Data Types

Como algumas empresas estão se beneficiando do Big Data?
Usando o Walmart como exemplo, eles coletam dados em tweets do Twitter, eventos locais, clima local,
compras na loja, cliques online e muitos outros dados relacionados a vendas, clientes e produtos. Eles usam
esses dados para encontrar padrões, como quais produtos são frequentemente comprados juntos e qual o
melhor produto a ser introduzido nas lojas para prever a demanda no local específico.

No geral, aproveitando o Big Data e a análise, o Walmart manteve sua posição como um dos principais
varejistas. Estudos preveem que os gastos com tecnologias de Big Data aumentem drasticamente nos próximos
cinco anos. Um estudo da Bane and Company sugere que, os primeiros a adotar a análise de Big Data
ganharam uma liderança significativa no resto do mundo corporativo.

O que elas ganham com isso? eficiência operacional; melhores resultados de marketing; maiores lucros; maior
satisfação do cliente.

The Key: Integrating Diverse Data

É preciso incluir a integração de dados na prática do Big Data. A integração de dados significa reunir dados de
diversas fontes e transformá-los em informações coerentes e mais úteis. O principal objetivo é domar ou
gerenciar tecnicamente os dados e transformá-los em algo que você pode usar programaticamente.
Mas, por que precisamos de integração de dados em primeiro lugar?

Vamos começar focando nas diferenças entre grandes conjuntos de dados provenientes de diferentes fontes.
Você pode ter dados formatados em arquivos simples, dados de banco de dados relacionais, dados codificados
em XML ou JSON, ambos comuns para dados gerados pela internet.

Esses diferentes formatos e modelos são úteis porque foram projetados para expressar dados diferentes de
maneiras únicas, de certa forma, diferentes formatos e modelos de dados tornam o Big Data mais útil e mais
desafiador, tudo ao mesmo tempo.
Além disso, a integração de conjuntos de dados reduz significativamente a complexidade geral dos dados no
meu produto orientado a dados. Os dados se tornam mais disponíveis para uso e unificados como um sistema
próprio. Uma vantagem dessa integração não é frequentemente mencionada.

De maneira geral, ao integrar diversos fluxos de dados, você agrega valor aos seus Big Data e aprimora seus
negócios antes mesmo de começar a analisá-los.

SEMANA 2
Characteristics Of Big Data
Até agora, vimos que Big Data é um termo genérico usado para se referir a qualquer coleção de dados tão
grande e complexa que excede a capacidade de processamento dos sistemas e técnicas convencionais de
gerenciamento de dados.
Big Data é comumente caracterizado usando um número de Vs.

● Volume
Volume é a dimensão do Big Data que se relaciona com o tamanho absoluto do Big Data. Esse volume pode vir
de grandes conjuntos de dados sendo compartilhados ou de muitos pequenos dados e eventos sendo coletados
ao longo do tempo. A ideia é entender que empresas e organizações estão coletando e aproveitando grandes
volumes de dados para melhorar seus produtos finais. Em geral, nos negócios, o objetivo é transformar esses
dados em alguma forma de vantagem nos negócios.
Como utilizamos volumes maiores de dados para melhorar a qualidade do produto final?

Dentre os desafios, o mais óbvio é o armazenamento. A medida que o tamanho dos dados aumenta, aumenta
também a quantidade de espaço de armazenamento necessário para armazenar esses dados com eficiência.

Os desafios de trabalhar com volumes incluem: custo, escalabilidade e desempenho relacionados ao
armazenamento, acesso e processamento.

● Velocidade
A velocidade refere-se à velocidade crescente na qual o Big Data é criado e à velocidade crescente na qual os
dados precisam ser armazenados e analisados. O processamento de dados em tempo real para corresponder à
sua taxa de produção à medida que é gerado é um objetivo específico da análise de Big Data. Por exemplo, esse
tipo de recurso permite a personalização de anúncios nas páginas da web que você visita, com base em seu
histórico recente de pesquisas, exibições e compras. Se uma empresa não pode tirar proveito dos dados à
medida que são gerados ou com a velocidade da análise necessária, geralmente perde oportunidades.

Ser capaz de acompanhar a velocidade do Big Data e analisá-lo à medida que é gerado pode até impactar a
qualidade da vida humana. Sensores e dispositivos inteligentes que monitoram o corpo humano podem detectar
anormalidades em tempo real e desencadear ações imediatas, potencialmente salvando vidas. Esse tipo de
processamento é o que chamamos de processamento em tempo real.

É importante combinar a velocidade do processamento com a velocidade da geração de informações e obter
poder de decisão em tempo real. A necessidade de ações orientadas por dados em tempo real dentro de um
caso de negócios é o que, no final, determina a velocidade da análise sobre Big Data.

● Variedade
Sendo uma forma de escalabilidade, mas, nesse caso, escala não se refere à grande quantidade de dados, e sim
ao aumento da diversidade. Quando pensamos na variedade de dados, como cientistas de dados, pensamos na
complexidade adicional resultante de mais tipos de dados que precisamos armazenar, processar e combinar.

Variedade estrutural refere-se à diferença na representação dos dados, por exemplo, um sinal de
eletrocardiograma é muito diferente de um artigo de jornal, uma imagem de satélite dos incêndios florestais da
NASA é muito diferente dos tweets enviados por pessoas que estão vendo o fogo se espalhar.

A variedade de mídia refere-se ao meio em que os dados são entregues. O áudio de um discurso versus a
transcrição do discurso pode representar a mesma informação em duas mídias diferentes.

A variedade semântica é melhor descrita em dois exemplos. Geralmente usamos unidades diferentes para
quantidades que medimos. Às vezes também usamos medidas qualitativas.

● Veracidade
A veracidade é muito importante para tornar o Big Data operacional. O Big Data pode ser barulhento e incerto,
com anormalidades e impreciso; os dados não tem valor se não forem precisos. Podemos dizer que, embora o
Big Data ofereça muitas oportunidades para tomar decisões ativadas por dados, as evidências fornecidas pelos
dados são valiosas apenas se os dados forem de qualidade satisfatória. A qualidade pode ser definida como

uma função de duas variáveis diferentes:
A precisão dos dados, confiabilidade, confiabilidade da fonte de dados e como os dados foram gerados são
fatores importantes que afetam a qualidade dos dados.
Dados não estruturados na internet são imprecisos e incertos, além disso, o Big Data de alta velocidade deixa
muito pouco ou nenhum tempo para o ETL e, por sua vez, dificulta os processos de garantia de qualidade dos
dados.
● Valência
Valência se refere à conectividade, quanto mais dados conectados estiverem, maiores serão as valências. O
termo valência vem da química, em química falamos sobre elétrons do núcleo e elétrons de valência de um
átomo, os elétrons de valência estão na camada mais externa, têm o nível mais alto de energia e são
responsáveis pela ligação com outros átomos. Essa valência mais alta resulta em maior conectividade.

Os itens de dados geralmente são conectados diretamente um ao outro. Uma cidade está conectada ao país ao

qual pertence, dois usuários do Facebook estão conectados porque são amigos. Os dados também podem ser
conectados indiretamente. Dois cientistas estão conectados porque ambos são físicos.

Para uma coleta de dados, a valência mede a proporção de itens de dados realmente conectados ao número
possível de conexões que podem ocorrer dentro da coleção.
O aspecto mais importante da valência é que a conectividade de dados aumenta com o tempo.

● Valor
O último V é o que torna o Big Data relevante, tudo bem ter acesso a uma quantidade massiva de informação a
cada segundo, mas isso não adianta nada se não puder gerar valor. É importante que as empresas entrem no
negócio do Big Data, mas é sempre importante lembrar dos custos e benefícios e tentar agregar valor ao que se
está fazendo.

Todos nós já ouvimos a ciência de dados transformar dados em percepções ou até mesmo ações. Mas o que
isso realmente significa? A ciência de dados pode ser considerada como uma base para pesquisas empíricas
onde os dados são usados para induzir informações para observações. Essas observações são principalmente
dados, no nosso caso, Big Data, relacionados a um caso empresarial ou científico.
Insight é um termo que usamos para nos referir aos produtos de dados da ciência de dados. Ele é extraído de
uma grande quantidade de dados por meio de uma combinação de modelagem e análise exploratória de dados.
As perguntas às vezes são mais específicas e às vezes requer a observação dos dados e padrões contidos para
chegar à pergunta específica.

Outro ponto importante a reconhecer é que a ciência de dados não é estática. Não é uma análise única. Envolve

um processo em que os modelos gerados para levar a insights são constantemente aprimorados por meio de
mais evidências empíricas, ou simplesmente dados. Quando você decide o que vestir para o dia com base na
previsão do dia, você está agindo com base nas informações fornecidas a você. Assim, os líderes de negócios e
tomadores de decisão agem com base nas evidências fornecidas por suas equipes de ciência de dados.
Building a Big Data Strategy:

Ao construir nossa estratégia de Big Data data, olhamos para o que temos, quais objetivos de alto nível
queremos alcançar, o que precisamos fazer para chegar lá e quais são as políticas em torno dos dados do início
ao fim.
Uma estratégia de Big Data começa com grandes objetivos. Observe que eu não disse que começa com a coleta

de dados porque, nesta atividade, estamos realmente tentando identificar quais dados são úteis e por que,
concentrando-nos em quais dados coletar. Cada organização ou equipe é única. Projetos diferentes têm
objetivos diferentes.
Portanto, é importante primeiro definir quais são os objetivos da sua equipe. Depois de definir esses objetivos,
ou, de um modo mais geral, as perguntas para transformar o Big Data em vantagem para o seu negócio, você
pode ver o que tem e analisar as lacunas e ações para chegar lá.

É importante focar nos objetivos de curto e longo prazo nesta atividade. Esses objetivos também devem ser
vinculados à análise de Big Data com os objetivos de negócios. Para fazer o melhor uso do Big Data, cada
empresa precisa avaliar como a ciência de dados ou a análise de Big Data agregaria valor aos seus objetivos de
negócios.
Depois de estabelecer que a análise pode ajudar sua empresa, você precisa criar uma cultura para adotá-la. O
primeiro e mais importante ingrediente para um programa de ciência de dados bem-sucedido é a adesão
organizacional. Uma estratégia de Big Data deve ter comprometimento e patrocínio da liderança da empresa.
As metas para usar a análise de Big Data devem ser desenvolvidas com todas as partes interessadas e
claramente comunicadas a todos na organização. Para que o seu valor seja compreendido e apreciado por
todos. A próxima etapa é construir sua equipe de ciência de dados.

Outro aspecto da definição de sua estratégia de Big Data é definir as políticas em torno do Big Data. Embora
tenha um potencial incrível para seus negócios, o uso de Big Data também deve levantar algumas preocupações
no planejamento de longo prazo para dados. .
Embora seja uma questão muito complexa, aqui estão algumas questões que você deve pensar em abordar em

torno das políticas:

1. Quais são as preocupações com a privacidade?

2. Quem deve ter acesso ou controlar os dados?
3. Qual é o tempo de vida dos dados, que às vezes é definido como volatilidade, anatomia de Big Data?
4. Como os dados são selecionados e limpos?
5. O que garante a qualidade dos dados em longo prazo?
6. Como as diferentes partes da sua organização se comunicam usando esses dados?
7. Existem normas legais e regulamentares em vigor?
8.
Resumindo, ao construir uma estratégia de Big Data, é importante integrar a análise de Big Data aos objetivos
de negócios. Comunique objetivos e forneça adesão organizacional para projetos de análise. Construa equipes
com talentos diversos e estabeleça uma mentalidade de trabalho em equipe. Remova as barreiras ao acesso e
integração de dados.
Finalmente, essas atividades precisam ser iteradas para responder a novos objetivos de negócios e avanços
tecnológicos.

How Does Big Data Science Happen? Five Components of Data Science.
Data Science trata de extrair conhecimento dos dados. No WorDS Center (words.sdsc.edu), definimos a ciência
de dados como uma arte multidisciplinar que combina pessoas, processos, plataformas computacionais e de Big
Data, propósito específico de aplicativo e programabilidade.
As publicações e a proveniência dos produtos de dados que levam a essas publicações também são
importantes para a ciência de dados, mas começamos definindo 5 P's que tomam parte significativa nas
atividades de ciência de dados.

● Purpose: o objetivo se refere ao desafio ou conjunto de desafios definidos por sua estratégia de Big
Data. O objetivo pode estar relacionado a uma análise científica com uma hipótese ou uma métrica de
negócios que precisa ser analisada com base muitas vezes em Big Data.

● People: os cientistas de dados são freqüentemente vistos como pessoas que possuem habilidades em
uma variedade de tópicos, incluindo: ciência ou conhecimento do domínio de negócios; análise usando
estatística, aprendizado de máquina e conhecimento matemático; gerenciamento de dados,
programação e computação. Na prática, geralmente é um grupo de pesquisadores formado por pessoas
com habilidades complementares.

● Process: Como existe uma equipe predefinida com um propósito, um ótimo lugar para essa equipe
começar é um processo no qual ela poderia iterar. Podemos simplesmente dizer, Pessoas com Propósito
definirão um Processo para colaborar e se comunicar! O processo de ciência de dados inclui técnicas de
estatística, aprendizado de máquina, programação, computação e gerenciamento de dados.

Um processo é conceitual no início e define o conjunto de etapas do curso e como todos podem
contribuir para isso. Observe que processos reutilizáveis semelhantes podem ser aplicáveis a muitos
aplicativos com finalidades diferentes quando empregados em fluxos de trabalho diferentes.
A execução de tal processo de ciência de dados requer acesso a muitos conjuntos de dados, grandes e
pequenos, trazendo novas oportunidades e desafios para a ciência de dados.

Existem muitas etapas ou tarefas de ciência de dados, como coleta de dados, limpeza de dados,
processamento / análise de dados, visualização de resultados, resultando em um fluxo de trabalho de
ciência de dados. Os processos de ciência de dados podem precisar da interação do usuário e outras
operações manuais, ou ser totalmente automatizados. Os desafios para o processo de ciência de dados
incluem:

1) como integrar facilmente todas as tarefas necessárias para construir tal processo;
2) como encontrar os melhores recursos de computação e agendar com eficiência as execuções do
processo para os recursos com base na definição do processo, configurações de parâmetros e
preferências do usuário.

● Platforms: com base nas necessidades de um propósito orientado por aplicativo e na quantidade de
dados e computação necessária para executar esse aplicativo, diferentes plataformas de computação e
dados podem ser usadas como parte do processo de ciência de dados. Essa escalabilidade deve fazer
parte de qualquer arquitetura de solução de ciência de dados.

● Programmability: a captura de um processo de ciência de dados escalonável requer ajuda de
linguagens de programação, por exemplo, R, e padrões, por exemplo, MapReduce. Ferramentas que
fornecem acesso a tais técnicas de programação são essenciais para tornar o processo de ciência de
dados programável em uma variedade de plataformas.

The Process of Data Analysis: Steps in the Data Science Process

● Step 1: Acquiring Data

A primeira etapa no processo de ciência de dados é adquirir os dados. A primeira etapa na aquisição de dados é
determinar quais dados estão disponíveis. Por exemplo, para gerenciamento de banco de dados é importante o
conhecimento em bancos de dados não-relacionais e relacionais. Se o projeto envolve dados provenientes de
arquivos em diversos formatos como CSV (Comma Separated Value) ou TSV (Tab Separated Values), o domínio
de bibliotecas Python e R são requisitos. Além disso, se o conjunto de dados utilizado for em grande escala, é
necessário usar de tecnologias Big Data (Apache Hadoop, Spark ou Flink).
● Step 2: Exploring Data

A primeira etapa após obter seus dados é explorá-los. Explorar os dados faz parte do processo de preparação
de dados de duas etapas. Você deseja fazer uma investigação preliminar para obter uma melhor compreensão
das características específicas de seus dados. Nesta etapa, você estará procurando coisas como correlações,
tendências gerais e outliers. Os gráficos de correlação podem ser usados para explorar as dependências entre
diferentes variáveis nos dados.
Em estatísticas, um outlier é um ponto de dados distante de outros pontos de dados. A plotagem de outliers o
ajudará a verificar se há erros nos dados devido às medições. Em alguns casos, outliers que não são erros
podem fazer com que você encontre um evento raro.
Algumas estatísticas de resumo básicas que você deve calcular para seu conjunto de dados são média,
mediana, intervalo e desvio padrão. Observar essas medidas lhe dará uma ideia da natureza de seus dados.

As técnicas de visualização também fornecem uma maneira rápida e eficaz e, em geral, muito útil de examinar
os dados nesta etapa de análise preliminar. Os gráficos de linha são úteis para ver como os valores em seus
dados mudam ao longo do tempo. Em resumo, o que você obtém ao explorar seus dados é um melhor
entendimento da complexidade dos dados com os quais você precisa trabalhar.

● Step 2-B: Pre-Processing Data

Existem dois objetivos principais na etapa de pré-processamento de dados. O primeiro é limpar os dados para
resolver problemas de qualidade de dados e o segundo é transformar os dados brutos para torná-los
adequados para análise.

Uma parte muito importante da preparação de dados é tratar da qualidade dos problemas em seus dados. Os
dados do mundo real são confusos.
Existem muitos exemplos de problemas de qualidade com dados de aplicativos reais, incluindo dados
inconsistentes, como um cliente com dois endereços diferentes, registros de clientes duplicados, por exemplo,
endereços de clientes registrados em dois locais de vendas diferentes.

Para abordar questões de qualidade de dados de forma eficaz, é importante conhecer o aplicativo, como a forma
como os dados foram coletados, a população de usuários e os usos pretendidos do aplicativo. Esse
conhecimento de domínio é essencial para tomar decisões informadas sobre como lidar com dados incompletos
ou incorretos.

A segunda parte da preparação de dados é manipular os dados limpos no formato necessário para análise. A
preparação de dados é uma parte muito importante do processo de ciência de dados. Na verdade, é aqui que
você gastará a maior parte do tempo em qualquer esforço de ciência de dados.
● Step 3: Analyzing Data

Agora que você tem seus dados bem preparados, a próxima etapa é analisá-los. A análise de dados envolve a
construção de um modelo a partir de seus dados, que é chamado de dados de entrada. As principais categorias
de técnicas de análise são: classificação, regressão, agrupamento, análise de associação e análise de gráfico.

Na classificação, o objetivo é prever a categoria dos dados de entrada. Um exemplo disso é prever o tempo
como sendo ensolarado, chuvoso, ventoso ou nublado neste caso.
Quando seu modelo precisa prever um valor numérico em vez de uma categoria, a tarefa se torna um problema
de regressão, um exemplo de regressão é prever o preço de uma ação; o preço da ação é um valor numérico,
não uma categoria. Portanto, esta é uma tarefa de regressão em vez de uma tarefa de classificação.

No agrupamento, o objetivo é organizar itens semelhantes em grupos. Um exemplo é agrupar a base de
clientes de uma empresa em segmentos distintos para um marketing direcionado mais eficaz, como idosos,
adultos e adolescentes.

O objetivo da análise de associação é criar um conjunto de regras para capturar associações dentro de itens ou

eventos. As regras são usadas para determinar quando os itens ou eventos ocorrem juntos. Uma aplicação
comum de análise de associação é conhecida como análise de cesta de compras, que é usada para entender o
comportamento de compra do cliente. Por exemplo, a análise de associação pode revelar que os clientes
bancários que têm certificados de contas de depósito, CDs de fiança, também tendem a se interessar por outros
veículos de investimento, como contas do mercado monetário.

Quando seus dados podem ser transformados em uma representação gráfica com nós e links, você deseja usar

a análise de gráfico para analisar seus dados. Esse tipo de dado surge quando você tem muitas entidades e
conexões entre essas entidades, como redes sociais.

● Step 4: Communicating Results

A quarta etapa em nosso processo de ciência de dados é relatar os insights obtidos com nossa análise. Esta é
uma etapa muito importante para comunicar seus insights e argumentar quais ações devem ser tomadas. A
primeira coisa a fazer é examinar os resultados da sua análise e decidir o que apresentar ou relatar como o
maior valor ou o maior conjunto de valores.
Ao decidir o que apresentar, você deve se perguntar o seguinte:

1) Quais são os principais resultados?

2) Que valor agregado esses resultados fornecem ou como o modelo pode agregar ao aplicativo?
3) Como os resultados se comparam aos critérios de sucesso determinados no início do projeto?

As respostas a essas perguntas são os itens que você precisa incluir em seu relatório ou apresentação.

● Step 5: Turning Insights into Action
Agora que você avaliou os resultados de sua análise e gerou relatórios sobre o valor potencial dos resultados, a
próxima etapa é determinar que ação ou ações devem ser tomadas, com base nos insights obtidos. Lembra por
que começamos a reunir os dados e analisá-los em primeiro lugar? Para encontrar insights acionáveis em todos
esses conjuntos de dados, para responder a perguntas ou para melhorar os processos de negócios.
As partes interessadas precisam ser identificadas e envolvidas nessa mudança. Assim como acontece com
qualquer mudança de melhoria de processo, precisamos monitorar e medir o impacto da ação no processo ou
aplicativo. Depois de definir essas ações em tempo real, precisamos ter certeza de que existem sistemas
automatizados ou processos para executar tais ações e fornecer recuperação de falha em caso de problemas.

Resumindo, Big Data e ciência de dados só são úteis se os insights puderem ser transformados em ação e se as

ações forem definidas e avaliadas com cuidado.

SEMANA 3
Basic Scalabre Computing Concepts: What is a Distribuited File System?
A necessidade de armazenar informações em arquivos vem de uma necessidade maior de armazenar
informações em longo prazo. Dessa forma, a informação vive depois que o programa de computador, ou o que
chamamos de processo, que a produziu termina.

Se não tivermos arquivos, nosso acesso a tais informações não seria possível uma vez que um programa as
utilizasse ou produzisse. Mesmo durante o processo, podemos precisar armazenar grandes quantidades de
informações que não podemos armazenar nos componentes do programa ou na memória do computador.

Além disso, quando os dados estão em um arquivo, vários processos podem acessar as mesmas informações,
se necessário. Por todos esses motivos, armazenamos informações em arquivos de um disco rígido. Muitos
desses arquivos são gerenciados pelo seu sistema operacional, como Windows ou Linux. O modo como o
sistema operacional gerencia os arquivos é denominado sistema de arquivos. O modo como essas informações

são armazenadas nas unidades de disco tem alto impacto na eficiência e na velocidade de acesso aos dados,
principalmente no caso de Big Data.
Embora os arquivos tenham endereços exatos para suas localizações no drive, referindo-se às unidades de
dados de sequência desses blocos, eles são chamados de estrutura plana, ou construção de hierarquia de
registros de índice, isso é chamado de banco de dados. Eles também têm nomes simbólicos legíveis por
humanos, geralmente seguidos por uma extensão. As extensões informam que tipo de arquivo é, em geral.
Programas e usuários podem acessar arquivos com seus nomes. O conteúdo de um arquivo pode ser executável
numérico, alfabético, alfanumérico ou binário.

Conjuntos de dados, ou partes de um conjunto de dados, podem ser replicados nos nós de um sistema de
arquivos distribuído. Como os dados já estão nesses nós, a análise de partes dos dados é necessária em um
modo paralelo de dados, a computação pode ser movida para esses nós.
Além disso, os sistemas de arquivos distribuídos replicam os dados entre os racks e também os computadores
distribuídos em regiões geográficas. A replicação de dados torna o sistema mais tolerante a falhas. Isso significa
que, se algum nó ou um rack cair, existem outras partes do sistema, os mesmos dados podem ser encontrados e
analisados.

A replicação de dados também ajuda a dimensionar o acesso a esses dados por muitos usuários.
Freqüentemente, se os dados forem populares, muitos processos do leitor desejarão ter acesso a eles. Em uma
replicação altamente paralelizada, cada leitor pode obter seu próprio nó para acessar e analisar dados. Isso
aumenta o desempenho geral do sistema.

Observe que o problema de ter essa replicação distributiva é que é difícil fazer alterações nos dados ao longo do
tempo. No entanto, na maioria dos sistemas de big data, os dados são gravados uma vez e as atualizações dos
dados são mantidas como conjuntos de dados adicionais ao longo do tempo.
Scalabre Computing Over the Internet

A maior parte da computação é feita em um único nó de computação. Se a computação precisa de mais do que
um nó ou processamento paralelo, como muitos problemas de computação científica, usamos computadores
paralelos. Esse tipo de computador especializado é muito caro em comparação com seu primo mais recente, o
cluster de commodities.

O termo cluster de commodity é frequentemente ouvido em conversas de Big Data. Os clusters de commodities

são computadores paralelos acessíveis com um número médio de nós de computação. Eles não são tão
poderosos quanto os computadores paralelos tradicionais e geralmente são construídos a partir de nós menos
especializados. Em clusters de commodities, os nós de computação são agrupados em racks.

A computação em um ou mais desses clusters em uma rede local ou Internet é chamada de computação
distribuída. Essas arquiteturas permitem o que chamamos de paralelismo de dados. No paralelismo de dados,
muitos trabalhos que não compartilham nada podem funcionar em diferentes conjuntos de dados ou partes de
um conjunto de dados. Esse tipo de paralelismo às vezes é chamado de paralelismo de nível de trabalho.
Grandes volumes e variedades de Big Data podem ser analisados usando este modo de paralelismo, alcançando
escalabilidade, desempenho e redução de custos. Como você pode imaginar, existem muitos pontos de falha
dentro dos sistemas. A capacidade de se recuperar de tais falhas é chamada de tolerância a falhas. Para
tolerância a falhas de tais sistemas, surgiram duas soluções bacanas, ou seja, armazenamento de dados
redundantes e reinicialização de tarefas paralelas individuais com falha.

Programming Models for Big Data

Vimos que a computação escalável pela Internet para alcançar escalabilidade paralela de dados para aplicativos
de Big Data agora é uma possibilidade. Graças aos clusters de commodities. Os clusters de mercadoria
econômicos, juntamente com os avanços em sistemas de arquivos distribuídos para mover a computação para
os dados, fornecem um potencial para conduzir análises escalonáveis de Big Data.

Um modelo de programação é uma abstração ou maquinário ou infraestrutura existente. É um conjunto de
bibliotecas de tempo de execução abstratas e linguagens de programação que formam um modelo de
computação.
Este nível de abstração pode ser de baixo nível, como em linguagem de máquina em computadores, ou muito
alto como em linguagens de programação de alto nível, por exemplo, Java. Portanto, podemos dizer que, se a
infraestrutura de ativação para a análise de Big Data são sistemas de arquivos distribuídos, conforme
mencionamos, então o modelo de programação para Big Data deve permitir a programação das operações
dentro dos sistemas de arquivos distribuídos.

Com base em tudo o que discutimos até agora, vamos descrever os requisitos para modelos de programação de

Big Data.
Em primeiro lugar, esse modelo de programação para Big Data deve suportar operações comuns de Big Data,
como a divisão de grandes volumes de dados. Isso significa particionar e colocar os dados dentro e fora da
memória do computador junto com um modelo para sincronizar os conjuntos de dados posteriormente.

O acesso aos dados deve ser realizado de forma rápida. Deve permitir uma distribuição rápida para nós dentro
de um rack e estes são, potencialmente, os nós de dados para os quais movemos a computação. Isso significa
agendar várias tarefas paralelas de uma vez. Também deve permitir a confiabilidade da computação e tolerância
total a falhas. Isso significa que ele deve permitir replicações programáveis e recuperação de arquivos quando
necessário. Deve ser facilmente escalonável para as notas distribuídas onde os dados são produzidos. Ele
também deve permitir a adição de novos recursos para aproveitar as vantagens de computadores distributivos e
escalar para mais dados ou mais rápido sem perder desempenho, uma vez que há uma variedade de tipos
diferentes de dados, como documentos, gráficos, tabelas, valores-chave, etc.

Um modelo de programação deve permitir operações sobre um determinado conjunto desses tipos. Nem todos

os tipos de dados podem ser suportados por um modelo específico, mas os modelos devem ser otimizados para
pelo menos um tipo.

MapReduce é um modelo de programação de Big Data que oferece suporte a todos os requisitos de
modelagem de Big Data que mencionamos. Ele pode modelar o processamento de grandes dados, dividir
complicações em diferentes tarefas paralelas e fazer uso eficiente de grandes clusters de mercadorias e
sistemas de arquivos distribuídos. Além disso, ele abstrai os detalhes de paralelização, tolerância total,
distribuição de dados, monitoramento e balanceamento de carga.

HADOOP: Why, Where and Who?

As estruturas e aplicativos do ecossistema Hadoop que descreveremos neste módulo têm vários temas e
objetivos abrangentes. Primeiro, eles fornecem escalabilidade para armazenar grandes volumes de dados em
hardware comum; conforme o número de sistemas aumenta, aumenta também a chance de travamentos e
falhas de hardware.
Um segundo objetivo, suportado pela maioria das estruturas no ecossistema Hadoop, é a capacidade de se
recuperar desses problemas de maneira harmoniosa. Além disso, como mencionamos antes, o Big Data vem em
uma variedade de sabores, como arquivos de texto, gráfico de redes sociais, streaming de dados do sensor e
imagens raster.
Um terceiro objetivo para o ecossistema Hadoop, então, é a capacidade de lidar com esses diferentes tipos de
dados para qualquer tipo de dados.
Um quarto objetivo do ecossistema Hadoop é a capacidade de facilitar um ambiente compartilhado. Uma vez
que mesmo clusters de tamanho modesto podem ter muitos núcleos, é importante permitir que vários trabalhos
sejam executados simultaneamente.

Outro objetivo do ecossistema Hadoop é fornecer valor para sua empresa. O ecossistema inclui uma ampla
gama de projetos de código aberto apoiados por uma grande comunidade ativa.

MapReduce: Simple Programming for Big Results

MapReduce é um modelo de programação para o ecossistema Hadoop. Ele depende do YARN para agendar e
executar o processamento paralelo nos blocos de arquivos distribuídos no HDFS. O modelo de programação
MapReduce simplifica muito a execução de código em paralelo, já que você não precisa lidar com nenhum
desses problemas. Em vez disso, você só precisa criar, mapear e reduzir tarefas e não precisa se preocupar com
vários threads, sincronização ou problemas de simultaneidade.

O modelo MapReduce requer que os mapas e reduza sejam executados independentemente um do outro. Isso
simplifica muito seu trabalho como designer, já que você não precisa lidar com problemas de sincronização. No
entanto, isso significa que os cálculos que têm dependências não podem ser expressos com MapReduce.

Cloud Computing: An Important Big Data Enabler

A ideia principal por trás da computação em nuvem é transformar a infraestrutura de computação em uma
mercadoria. Portanto, os desenvolvedores de aplicativos podem se concentrar em resolver desafios específicos
de aplicativos em vez de tentar construir uma infraestrutura para a execução. Então, como isso acontece?
Podemos simplesmente definir um serviço de computação em nuvem, como um serviço de aluguel de
computação. Você aluga o que deseja e devolve após o uso.

Nuvem permite que você esqueça os problemas de gerenciamento de recursos e permite que você se concentre

nos produtos de sua empresa ou experiência de domínio com custo mínimo. Em resumo, a nuvem faz o trabalho
pesado, para que sua equipe possa extrair valor dos dados ficando atolada nos detalhes da infraestrutura. A
nuvem fornece soluções convenientes e viáveis para dimensionar seu protótipo para um aplicativo completo.

Cloud Service Models: An Exploration of Choices

Infraestrutura como serviço, plataforma como serviço e aplicativo como serviço são três modelos de serviço de
classe principal que estão sendo usados com sucesso. A escolha de um vai depender do número de variáveis
que são os objetivos da empresa. Esses três modelos inspiraram o surgimento de muitos modelos semelhantes
em torno da computação em nuvem.

Value From Hadoop and Pre-Built Hadoop Images

O uso de pacotes de software pré-construídos traz vários benefícios e pode acelerar significativamente seus
projetos de Big Data. Mesmo pequenas equipes podem criar protótipos, implantar e validar rapidamente suas
ideias de projeto.

As soluções analíticas desenvolvidas podem ser dimensionadas para volumes maiores e aumentar a velocidade

dos dados em questão de horas. Essas empresas também fornecem soluções de nível empresarial para
aplicativos grandes e completos.

Um benefício adicional é que existem muitas empresas que fornecem soluções prontas. Isso significa muitas
opções para você escolher a mais adequada ao seu projeto.

Introduction To Big Data - University of California

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Introduction To Big Data - University of California

Enviado por

Direitos autorais:

Formatos disponíveis

University of California San Diego

Mas há algo mais contribuinte para o poder de catalisador da ciência de dados, e é chamado de computação em

Você pode se surpreender ao saber que alguns de seus aplicativos favoritos são de empresas administradas em

Para resumir, a grande quantidade de dados combinada com a capacidade de processamento computacional a

What Makes Big Data Valuable?

Saving Lives With Big Data

Using Big Data to Help Patients

A Sentiment Analysis Sucess Story: Meltwater helping Danone

Where Does Big Data Come From?

● It's Everywhere and There's a lot.

Resumindo, como o maior e mais rápido tipo de Big Data, os dados gerados por máquina podem permitir ações

Big Data Generated By People:

● How Is It Being Used?

Atualmente, muitas empresas estão usando uma abordagem híbrida na qual seus dados estruturados menores

Então, como as organizações produzem dados?

● Benefits Come From Combining With Other Data Types

The Key: Integrating Diverse Data

Mas, por que precisamos de integração de dados em primeiro lugar?

Big Data é comumente caracterizado usando um número de Vs.

uma função de duas variáveis diferentes:

Os itens de dados geralmente são conectados diretamente um ao outro. Uma cidade está conectada ao país ao

Outro ponto importante a reconhecer é que a ciência de dados não é estática. Não é uma análise única. Envolve

Building a Big Data Strategy:

Uma estratégia de Big Data começa com grandes objetivos. Observe que eu não disse que começa com a coleta

Embora seja uma questão muito complexa, aqui estão algumas questões que você deve pensar em abordar em

1. Quais são as preocupações com a privacidade?

The Process of Data Analysis: Steps in the Data Science Process

● Step 1: Acquiring Data

● Step 2: Exploring Data

● Step 2-B: Pre-Processing Data

● Step 3: Analyzing Data

O objetivo da ​análise de associação ​é criar um conjunto de regras para capturar associações dentro de itens ou

Quando seus dados podem ser transformados em uma representação gráfica com nós e links, você deseja usar

● Step 4: Communicating Results

1) Quais são os principais resultados?

Resumindo, Big Data e ciência de dados só são úteis se os insights puderem ser transformados em ação e se as

Scalabre Computing Over the Internet

O termo cluster de commodity é frequentemente ouvido em conversas de Big Data. Os clusters de commodities

Programming Models for Big Data

Com base em tudo o que discutimos até agora, vamos descrever os requisitos para modelos de programação de

Um modelo de programação deve permitir operações sobre um determinado conjunto desses tipos. Nem todos

HADOOP: Why, Where and Who?

MapReduce: Simple Programming for Big Results

Cloud Computing: An Important Big Data Enabler

Nuvem permite que você esqueça os problemas de gerenciamento de recursos e permite que você se concentre

Cloud Service Models: An Exploration of Choices

Value From Hadoop and Pre-Built Hadoop Images

As soluções analíticas desenvolvidas podem ser dimensionadas para volumes maiores e aumentar a velocidade

Você também pode gostar

O objetivo da análise de associação é criar um conjunto de regras para capturar associações dentro de itens ou