Escolar Documentos
Profissional Documentos
Cultura Documentos
SEMANA 1
What Launched The Big Data era?
Pense nisso: hoje você pode comprar um disco rígido para armazenar todas as músicas do mundo por apenas
US$600, essa é uma incrível capacidade de armazenamento sobre todas as formas anteriores de
armazenamento de música. Os telefones, e os aplicativos que instalamos neles, também são uma fonte de Big
Data. Tudo isso leva a projeções de crescimento sério: 40% em dados globais por ano e 5% em gastos globais
de TI. Esses dados certamente levaram o campo da ciência de dados a começar a permanecer em si e no mundo
dos negócios de hoje.
Basicamente, o Big Data permitiu o marketing personalizado. Os consumidores estão copiosamente gerando
dados acessíveis ao público por meio de sites de mídia social, como o Twitter; com esses dados, as empresas
podem ver seu histórico de compras, o que pesquisaram, o que assistiram, onde estiveram e o que os
interessam por meio de curtidas e compartilhamentos.
Vejamos alguns exemplos de como as empresas estão colocando essas informações para criar melhores
campanhas de marketing: uma área com que estamos familiarizados são os mecanismos de recomendação,
esses mecanismos aproveitam os padrões do usuário e os recursos do produto para prever a melhor
correspondência do produto para enriquecer a experiência do usuário.
Outra técnica usada pelas empresas é a análise de sentimentos (mineração de opinião) ou, em termos simples, a
análise dos sentimentos em torno de eventos e produtos. Quando compramos um produto, não só podemos ler
os comentários, como também podemos escrever, dessa forma, outros clientes podem ser informados.
Os canais de notícias são preenchidos com a análise do feed do Twitter toda vez que ocorre um evento de
importância, como eleições. As marcas utilizam a análise de sentimentos para entender como os clientes se
relacionam com seus produtos, de maneira positiva, negativa e neutra.
A publicidade móvel é um mercado enorme para as empresas, as plataformas utilizam os sensores em
dispositivos móveis, como GPS, e fornecem anúncios baseados em localização em tempo real e, oferecem
descontos com base nesse dilúvio de dados.
Vamos falar agora sobre como o comportamento global do consumidor pode ser usado para o crescimento do
produto. Estamos mudando o marketing personalizado para o comportamento do consumidor como um todo.
Toda empresa quer entender o comportamento coletivo de seus consumidores para capturar o cenário em
constante mudança. Vários produtos de Big Data permitem isso, desenvolvendo modelos para capturar o
comportamento do usuário e permitir que as empresas tenham como alvo o público certo para o seu produto.
Algumas aplicações:
Com os rápidos avanços na tecnologia de sequenciamento de genoma, o setor de ciências da vida está
passando por um enorme empate no Big Data biomédico. Esses dados biomédicos estão sendo utilizados por
muitas aplicações em pesquisa e medicina personalizada. Antes dessa medicina, a maioria dos pacientes sem
tipo e estágio específico de câncer, por exemplo, recebia o mesmo tratamento, que funcionava melhor para
alguns do que para outros; agora, a pessoa pode receber um plano de tratamento padrão ou a recomendação de
algum tipo de tratamento personalizado.
Outra aplicação de Big Data vem da malha interconectada de grande número de sensores implantados em
cidades inteligentes. A análise dos dados gerados pelos sensores em tempo real permite que as cidades
ofereçam melhor qualidade de serviço aos habitantes, e reduza os efeitos indesejados, como poluição,
congestionamento do tráfego e custo acima do ideal na prestação de serviços urbanos.
Poderíamos, por exemplo, utilizar Big Data para monitorar, prever e gerenciar uma tempestade, em busca de
evitar possíveis incêndios, como acontece em San Diego. Alguns fluxos de incêndios florestais são gerados
pelas pessoas através de dispositivos que eles carregam, muitos vêm de sensores e satélites, coisas que medem
fatores ambientais, e alguns vêm de dados organizacionais, incluindo mapas de áreas e bancos de dados de
conteúdo de campo, que arquivam quanto registra a vegetação e outros tipo de combustível no caminho de um
possível incêndio.
Mas por que o Big Data pode ajudar? porque novas abordagens e respostas podem ser adotadas se pudermos
integrar esses diversos fluxos de dados, muitas dessas fontes de dados já existem há algum tempo, mas o que
falta atualmente no gerenciamento de desastres é uma integração dinâmica do sistema de redes de sensores
em tempo real, imagens de satélite, ferramentas de simulação de incêndio, conectividade a centros de comando
de emergência e tudo isso antes, durante e após uma tempestade.
Uma grande parte dos dados sobre incêndios é gerada pelo público em sites de mídia, como o Twitter, que
suportam recursos de compartilhamento de fotos. Imagine sintetizar todas as fotos no Twitter sobre um
incêndio em andamento ou verificar o sentimento do público em torno dos limites de um incêndio. Depois de ter
o acesso, podemos monitorá-lo ou somente visualizá-lo.
Machine-Generated Data:
● Advantages.
Por que o Big Data gerado pelas máquinas é útil?
Voltando ao caso do avião, se observarmos alguns dos sensores que contribuem para meio terabyte de dados
gerados em um avião, descobriremos que alguns deles vêm de acelerômetros que medem a turbulência.
Também existem sensores embutidos nos motores para temperatura, pressão e muitos outros fatores
mensuráveis para detectar mau funcionamento do motor.
A análise constante em tempo real de todos os dados coletados fornece ajuda no monitoramento e detecção de
problema a 40k pés, isso é, aproximadamente, 12k metros acima do solo. Chamamos esse tipo de
processamento analítico in situ. Anteriormente, nos sistemas tradicionais de gerenciamento de banco de dados
relacional, os dados eram frequentemente movidos para o espaço computacional para processamento. No
espaço de Big Data, In-Situ significa levar a computação para onde os dados estão localizados ou, nesse caso,
gerados.
O tamanho dos dados não estruturados gerados por seres humanos traz muitos desafios, dados não
estruturados referem-se a dados que não estão em conformidade com um modelo de dados predefinido, é
basicamente tudo o que não armazenamos em um sistema tradicional de gerenciamento de banco de dados
relacional.
Exemplos de dados não estruturados gerados por pessoas incluem textos, imagens, vídeos, áudios, pesquisas
na internet e e-mails. Além do rápido crescimento, os principais desafios dos dados não estruturados incluem
vários formatos de dados, como páginas da web, imagens, pdfs, power point, XML e outros formatos criados
principalmente para consumo humano.
Outro desafio dos dados gerados por humanos é o volume e a rápida geração de dados, que chamamos de
velocidade. Além disso, a confirmação de dados não estruturados é demorada e cara, os custos e o tempo do
processo de aquisição, armazenamento, limpeza, recuperação e processamento de dados não estruturados
podem gerar bastante investimento antes que possamos começar a colher valor com esse processo.
A maioria dessas ferramentas é baseada em uma estrutura de Big Data de código aberto chamada Hadoop. O
Hadoop foi projetado para suportar o processamento de grandes conjuntos de dados em um ambiente de
computação distribuído. Essa definição já daria uma dica de que ele enfrenta o primeiro desafio, ou seja, o
volume de informações não estruturadas. O Hadoop pode lidar com grandes lotes de informações distribuídas
mas, na maioria das vezes, é necessário um processamento em tempo real de dados gerados por pessoas, como
atualizações no Twitter.
O monitoramento da conformidade financeira é outra área do nosso processamento de tempo central,
principalmente para reduzir os dados do mercado. Dados de mídia social e de mercado são dois tipos do que
chamamos de dados de alta velocidade.
Organization-Generated Data:
● Structured But Often Siloed
Esse tipo de dado é o mais próximo do que a maioria das empresas possui atualmente, mas é considerado um
pouco fora de moda em comparação com outros tipos de Big Data.
Essa resposta é exclusiva da organização e do contexto, cada organização possui práticas operacionais
distintas e modelos de negócios, que resultam em uma variedade de plataformas de geração de dados. O tipo e
a fonte de dados que um banco obtém, é muito diferente do que o fabricante de equipamentos de hardware
obtém. Em resumo, embora os dados organizacionais altamente estruturados sejam muito úteis e confiáveis e,
portanto, uma fonte valiosa de informações, as organizações devem prestar atenção especial à quebra dos silos
de informações para aproveitar ao máximo seu potencial.
No geral, aproveitando o Big Data e a análise, o Walmart manteve sua posição como um dos principais
varejistas. Estudos preveem que os gastos com tecnologias de Big Data aumentem drasticamente nos próximos
cinco anos. Um estudo da Bane and Company sugere que, os primeiros a adotar a análise de Big Data
ganharam uma liderança significativa no resto do mundo corporativo.
O que elas ganham com isso? eficiência operacional; melhores resultados de marketing; maiores lucros; maior
satisfação do cliente.
Vamos começar focando nas diferenças entre grandes conjuntos de dados provenientes de diferentes fontes.
Você pode ter dados formatados em arquivos simples, dados de banco de dados relacionais, dados codificados
em XML ou JSON, ambos comuns para dados gerados pela internet.
Esses diferentes formatos e modelos são úteis porque foram projetados para expressar dados diferentes de
maneiras únicas, de certa forma, diferentes formatos e modelos de dados tornam o Big Data mais útil e mais
desafiador, tudo ao mesmo tempo.
Além disso, a integração de conjuntos de dados reduz significativamente a complexidade geral dos dados no
meu produto orientado a dados. Os dados se tornam mais disponíveis para uso e unificados como um sistema
próprio. Uma vantagem dessa integração não é frequentemente mencionada.
De maneira geral, ao integrar diversos fluxos de dados, você agrega valor aos seus Big Data e aprimora seus
negócios antes mesmo de começar a analisá-los.
SEMANA 2
Characteristics Of Big Data
Até agora, vimos que Big Data é um termo genérico usado para se referir a qualquer coleção de dados tão
grande e complexa que excede a capacidade de processamento dos sistemas e técnicas convencionais de
gerenciamento de dados.
● Volume
Volume é a dimensão do Big Data que se relaciona com o tamanho absoluto do Big Data. Esse volume pode vir
de grandes conjuntos de dados sendo compartilhados ou de muitos pequenos dados e eventos sendo coletados
ao longo do tempo. A ideia é entender que empresas e organizações estão coletando e aproveitando grandes
volumes de dados para melhorar seus produtos finais. Em geral, nos negócios, o objetivo é transformar esses
dados em alguma forma de vantagem nos negócios.
Como utilizamos volumes maiores de dados para melhorar a qualidade do produto final?
Dentre os desafios, o mais óbvio é o armazenamento. A medida que o tamanho dos dados aumenta, aumenta
também a quantidade de espaço de armazenamento necessário para armazenar esses dados com eficiência.
Os desafios de trabalhar com volumes incluem: custo, escalabilidade e desempenho relacionados ao
armazenamento, acesso e processamento.
● Velocidade
A velocidade refere-se à velocidade crescente na qual o Big Data é criado e à velocidade crescente na qual os
dados precisam ser armazenados e analisados. O processamento de dados em tempo real para corresponder à
sua taxa de produção à medida que é gerado é um objetivo específico da análise de Big Data. Por exemplo, esse
tipo de recurso permite a personalização de anúncios nas páginas da web que você visita, com base em seu
histórico recente de pesquisas, exibições e compras. Se uma empresa não pode tirar proveito dos dados à
medida que são gerados ou com a velocidade da análise necessária, geralmente perde oportunidades.
Ser capaz de acompanhar a velocidade do Big Data e analisá-lo à medida que é gerado pode até impactar a
qualidade da vida humana. Sensores e dispositivos inteligentes que monitoram o corpo humano podem detectar
anormalidades em tempo real e desencadear ações imediatas, potencialmente salvando vidas. Esse tipo de
processamento é o que chamamos de processamento em tempo real.
É importante combinar a velocidade do processamento com a velocidade da geração de informações e obter
poder de decisão em tempo real. A necessidade de ações orientadas por dados em tempo real dentro de um
caso de negócios é o que, no final, determina a velocidade da análise sobre Big Data.
● Variedade
Sendo uma forma de escalabilidade, mas, nesse caso, escala não se refere à grande quantidade de dados, e sim
ao aumento da diversidade. Quando pensamos na variedade de dados, como cientistas de dados, pensamos na
complexidade adicional resultante de mais tipos de dados que precisamos armazenar, processar e combinar.
Variedade estrutural refere-se à diferença na representação dos dados, por exemplo, um sinal de
eletrocardiograma é muito diferente de um artigo de jornal, uma imagem de satélite dos incêndios florestais da
NASA é muito diferente dos tweets enviados por pessoas que estão vendo o fogo se espalhar.
A variedade de mídia refere-se ao meio em que os dados são entregues. O áudio de um discurso versus a
transcrição do discurso pode representar a mesma informação em duas mídias diferentes.
A variedade semântica é melhor descrita em dois exemplos. Geralmente usamos unidades diferentes para
quantidades que medimos. Às vezes também usamos medidas qualitativas.
● Veracidade
A veracidade é muito importante para tornar o Big Data operacional. O Big Data pode ser barulhento e incerto,
com anormalidades e impreciso; os dados não tem valor se não forem precisos. Podemos dizer que, embora o
Big Data ofereça muitas oportunidades para tomar decisões ativadas por dados, as evidências fornecidas pelos
dados são valiosas apenas se os dados forem de qualidade satisfatória. A qualidade pode ser definida como
A precisão dos dados, confiabilidade, confiabilidade da fonte de dados e como os dados foram gerados são
fatores importantes que afetam a qualidade dos dados.
Dados não estruturados na internet são imprecisos e incertos, além disso, o Big Data de alta velocidade deixa
muito pouco ou nenhum tempo para o ETL e, por sua vez, dificulta os processos de garantia de qualidade dos
dados.
● Valência
Valência se refere à conectividade, quanto mais dados conectados estiverem, maiores serão as valências. O
termo valência vem da química, em química falamos sobre elétrons do núcleo e elétrons de valência de um
átomo, os elétrons de valência estão na camada mais externa, têm o nível mais alto de energia e são
responsáveis pela ligação com outros átomos. Essa valência mais alta resulta em maior conectividade.
Para uma coleta de dados, a valência mede a proporção de itens de dados realmente conectados ao número
possível de conexões que podem ocorrer dentro da coleção.
O aspecto mais importante da valência é que a conectividade de dados aumenta com o tempo.
● Valor
O último V é o que torna o Big Data relevante, tudo bem ter acesso a uma quantidade massiva de informação a
cada segundo, mas isso não adianta nada se não puder gerar valor. É importante que as empresas entrem no
negócio do Big Data, mas é sempre importante lembrar dos custos e benefícios e tentar agregar valor ao que se
está fazendo.
Todos nós já ouvimos a ciência de dados transformar dados em percepções ou até mesmo ações. Mas o que
isso realmente significa? A ciência de dados pode ser considerada como uma base para pesquisas empíricas
onde os dados são usados para induzir informações para observações. Essas observações são principalmente
dados, no nosso caso, Big Data, relacionados a um caso empresarial ou científico.
Insight é um termo que usamos para nos referir aos produtos de dados da ciência de dados. Ele é extraído de
uma grande quantidade de dados por meio de uma combinação de modelagem e análise exploratória de dados.
As perguntas às vezes são mais específicas e às vezes requer a observação dos dados e padrões contidos para
chegar à pergunta específica.
Portanto, é importante primeiro definir quais são os objetivos da sua equipe. Depois de definir esses objetivos,
ou, de um modo mais geral, as perguntas para transformar o Big Data em vantagem para o seu negócio, você
pode ver o que tem e analisar as lacunas e ações para chegar lá.
É importante focar nos objetivos de curto e longo prazo nesta atividade. Esses objetivos também devem ser
vinculados à análise de Big Data com os objetivos de negócios. Para fazer o melhor uso do Big Data, cada
empresa precisa avaliar como a ciência de dados ou a análise de Big Data agregaria valor aos seus objetivos de
negócios.
Depois de estabelecer que a análise pode ajudar sua empresa, você precisa criar uma cultura para adotá-la. O
primeiro e mais importante ingrediente para um programa de ciência de dados bem-sucedido é a adesão
organizacional. Uma estratégia de Big Data deve ter comprometimento e patrocínio da liderança da empresa.
As metas para usar a análise de Big Data devem ser desenvolvidas com todas as partes interessadas e
claramente comunicadas a todos na organização. Para que o seu valor seja compreendido e apreciado por
todos. A próxima etapa é construir sua equipe de ciência de dados.
Outro aspecto da definição de sua estratégia de Big Data é definir as políticas em torno do Big Data. Embora
tenha um potencial incrível para seus negócios, o uso de Big Data também deve levantar algumas preocupações
no planejamento de longo prazo para dados. .
8.
Resumindo, ao construir uma estratégia de Big Data, é importante integrar a análise de Big Data aos objetivos
de negócios. Comunique objetivos e forneça adesão organizacional para projetos de análise. Construa equipes
com talentos diversos e estabeleça uma mentalidade de trabalho em equipe. Remova as barreiras ao acesso e
integração de dados.
Finalmente, essas atividades precisam ser iteradas para responder a novos objetivos de negócios e avanços
tecnológicos.
How Does Big Data Science Happen? Five Components of Data Science.
Data Science trata de extrair conhecimento dos dados. No WorDS Center (words.sdsc.edu), definimos a ciência
de dados como uma arte multidisciplinar que combina pessoas, processos, plataformas computacionais e de Big
Data, propósito específico de aplicativo e programabilidade.
As publicações e a proveniência dos produtos de dados que levam a essas publicações também são
importantes para a ciência de dados, mas começamos definindo 5 P's que tomam parte significativa nas
atividades de ciência de dados.
● Purpose: o objetivo se refere ao desafio ou conjunto de desafios definidos por sua estratégia de Big
Data. O objetivo pode estar relacionado a uma análise científica com uma hipótese ou uma métrica de
negócios que precisa ser analisada com base muitas vezes em Big Data.
● People: os cientistas de dados são freqüentemente vistos como pessoas que possuem habilidades em
uma variedade de tópicos, incluindo: ciência ou conhecimento do domínio de negócios; análise usando
estatística, aprendizado de máquina e conhecimento matemático; gerenciamento de dados,
programação e computação. Na prática, geralmente é um grupo de pesquisadores formado por pessoas
com habilidades complementares.
● Process: Como existe uma equipe predefinida com um propósito, um ótimo lugar para essa equipe
começar é um processo no qual ela poderia iterar. Podemos simplesmente dizer, Pessoas com Propósito
definirão um Processo para colaborar e se comunicar! O processo de ciência de dados inclui técnicas de
estatística, aprendizado de máquina, programação, computação e gerenciamento de dados.
Um processo é conceitual no início e define o conjunto de etapas do curso e como todos podem
contribuir para isso. Observe que processos reutilizáveis semelhantes podem ser aplicáveis a muitos
aplicativos com finalidades diferentes quando empregados em fluxos de trabalho diferentes.
A execução de tal processo de ciência de dados requer acesso a muitos conjuntos de dados, grandes e
pequenos, trazendo novas oportunidades e desafios para a ciência de dados.
Existem muitas etapas ou tarefas de ciência de dados, como coleta de dados, limpeza de dados,
processamento / análise de dados, visualização de resultados, resultando em um fluxo de trabalho de
ciência de dados. Os processos de ciência de dados podem precisar da interação do usuário e outras
operações manuais, ou ser totalmente automatizados. Os desafios para o processo de ciência de dados
incluem:
1) como integrar facilmente todas as tarefas necessárias para construir tal processo;
2) como encontrar os melhores recursos de computação e agendar com eficiência as execuções do
processo para os recursos com base na definição do processo, configurações de parâmetros e
preferências do usuário.
● Platforms: com base nas necessidades de um propósito orientado por aplicativo e na quantidade de
dados e computação necessária para executar esse aplicativo, diferentes plataformas de computação e
dados podem ser usadas como parte do processo de ciência de dados. Essa escalabilidade deve fazer
parte de qualquer arquitetura de solução de ciência de dados.
● Programmability: a captura de um processo de ciência de dados escalonável requer ajuda de
linguagens de programação, por exemplo, R, e padrões, por exemplo, MapReduce. Ferramentas que
fornecem acesso a tais técnicas de programação são essenciais para tornar o processo de ciência de
dados programável em uma variedade de plataformas.
Em estatísticas, um outlier é um ponto de dados distante de outros pontos de dados. A plotagem de outliers o
ajudará a verificar se há erros nos dados devido às medições. Em alguns casos, outliers que não são erros
podem fazer com que você encontre um evento raro.
Algumas estatísticas de resumo básicas que você deve calcular para seu conjunto de dados são média,
mediana, intervalo e desvio padrão. Observar essas medidas lhe dará uma ideia da natureza de seus dados.
As técnicas de visualização também fornecem uma maneira rápida e eficaz e, em geral, muito útil de examinar
os dados nesta etapa de análise preliminar. Os gráficos de linha são úteis para ver como os valores em seus
dados mudam ao longo do tempo. Em resumo, o que você obtém ao explorar seus dados é um melhor
entendimento da complexidade dos dados com os quais você precisa trabalhar.
Uma parte muito importante da preparação de dados é tratar da qualidade dos problemas em seus dados. Os
dados do mundo real são confusos.
Existem muitos exemplos de problemas de qualidade com dados de aplicativos reais, incluindo dados
inconsistentes, como um cliente com dois endereços diferentes, registros de clientes duplicados, por exemplo,
endereços de clientes registrados em dois locais de vendas diferentes.
Para abordar questões de qualidade de dados de forma eficaz, é importante conhecer o aplicativo, como a forma
como os dados foram coletados, a população de usuários e os usos pretendidos do aplicativo. Esse
conhecimento de domínio é essencial para tomar decisões informadas sobre como lidar com dados incompletos
ou incorretos.
A segunda parte da preparação de dados é manipular os dados limpos no formato necessário para análise. A
preparação de dados é uma parte muito importante do processo de ciência de dados. Na verdade, é aqui que
você gastará a maior parte do tempo em qualquer esforço de ciência de dados.
Na classificação, o objetivo é prever a categoria dos dados de entrada. Um exemplo disso é prever o tempo
como sendo ensolarado, chuvoso, ventoso ou nublado neste caso.
Quando seu modelo precisa prever um valor numérico em vez de uma categoria, a tarefa se torna um problema
de regressão, um exemplo de regressão é prever o preço de uma ação; o preço da ação é um valor numérico,
não uma categoria. Portanto, esta é uma tarefa de regressão em vez de uma tarefa de classificação.
No agrupamento, o objetivo é organizar itens semelhantes em grupos. Um exemplo é agrupar a base de
clientes de uma empresa em segmentos distintos para um marketing direcionado mais eficaz, como idosos,
adultos e adolescentes.
As respostas a essas perguntas são os itens que você precisa incluir em seu relatório ou apresentação.
● Step 5: Turning Insights into Action
Agora que você avaliou os resultados de sua análise e gerou relatórios sobre o valor potencial dos resultados, a
próxima etapa é determinar que ação ou ações devem ser tomadas, com base nos insights obtidos. Lembra por
que começamos a reunir os dados e analisá-los em primeiro lugar? Para encontrar insights acionáveis em todos
esses conjuntos de dados, para responder a perguntas ou para melhorar os processos de negócios.
As partes interessadas precisam ser identificadas e envolvidas nessa mudança. Assim como acontece com
qualquer mudança de melhoria de processo, precisamos monitorar e medir o impacto da ação no processo ou
aplicativo. Depois de definir essas ações em tempo real, precisamos ter certeza de que existem sistemas
automatizados ou processos para executar tais ações e fornecer recuperação de falha em caso de problemas.
SEMANA 3
Basic Scalabre Computing Concepts: What is a Distribuited File System?
A necessidade de armazenar informações em arquivos vem de uma necessidade maior de armazenar
informações em longo prazo. Dessa forma, a informação vive depois que o programa de computador, ou o que
chamamos de processo, que a produziu termina.
Se não tivermos arquivos, nosso acesso a tais informações não seria possível uma vez que um programa as
utilizasse ou produzisse. Mesmo durante o processo, podemos precisar armazenar grandes quantidades de
informações que não podemos armazenar nos componentes do programa ou na memória do computador.
Além disso, quando os dados estão em um arquivo, vários processos podem acessar as mesmas informações,
se necessário. Por todos esses motivos, armazenamos informações em arquivos de um disco rígido. Muitos
desses arquivos são gerenciados pelo seu sistema operacional, como Windows ou Linux. O modo como o
sistema operacional gerencia os arquivos é denominado sistema de arquivos. O modo como essas informações
são armazenadas nas unidades de disco tem alto impacto na eficiência e na velocidade de acesso aos dados,
principalmente no caso de Big Data.
Embora os arquivos tenham endereços exatos para suas localizações no drive, referindo-se às unidades de
dados de sequência desses blocos, eles são chamados de estrutura plana, ou construção de hierarquia de
registros de índice, isso é chamado de banco de dados. Eles também têm nomes simbólicos legíveis por
humanos, geralmente seguidos por uma extensão. As extensões informam que tipo de arquivo é, em geral.
Programas e usuários podem acessar arquivos com seus nomes. O conteúdo de um arquivo pode ser executável
numérico, alfabético, alfanumérico ou binário.
Conjuntos de dados, ou partes de um conjunto de dados, podem ser replicados nos nós de um sistema de
arquivos distribuído. Como os dados já estão nesses nós, a análise de partes dos dados é necessária em um
modo paralelo de dados, a computação pode ser movida para esses nós.
Além disso, os sistemas de arquivos distribuídos replicam os dados entre os racks e também os computadores
distribuídos em regiões geográficas. A replicação de dados torna o sistema mais tolerante a falhas. Isso significa
que, se algum nó ou um rack cair, existem outras partes do sistema, os mesmos dados podem ser encontrados e
analisados.
A replicação de dados também ajuda a dimensionar o acesso a esses dados por muitos usuários.
Freqüentemente, se os dados forem populares, muitos processos do leitor desejarão ter acesso a eles. Em uma
replicação altamente paralelizada, cada leitor pode obter seu próprio nó para acessar e analisar dados. Isso
aumenta o desempenho geral do sistema.
Observe que o problema de ter essa replicação distributiva é que é difícil fazer alterações nos dados ao longo do
tempo. No entanto, na maioria dos sistemas de big data, os dados são gravados uma vez e as atualizações dos
dados são mantidas como conjuntos de dados adicionais ao longo do tempo.
A computação em um ou mais desses clusters em uma rede local ou Internet é chamada de computação
distribuída. Essas arquiteturas permitem o que chamamos de paralelismo de dados. No paralelismo de dados,
muitos trabalhos que não compartilham nada podem funcionar em diferentes conjuntos de dados ou partes de
um conjunto de dados. Esse tipo de paralelismo às vezes é chamado de paralelismo de nível de trabalho.
Grandes volumes e variedades de Big Data podem ser analisados usando este modo de paralelismo, alcançando
escalabilidade, desempenho e redução de custos. Como você pode imaginar, existem muitos pontos de falha
dentro dos sistemas. A capacidade de se recuperar de tais falhas é chamada de tolerância a falhas. Para
tolerância a falhas de tais sistemas, surgiram duas soluções bacanas, ou seja, armazenamento de dados
redundantes e reinicialização de tarefas paralelas individuais com falha.
Um modelo de programação é uma abstração ou maquinário ou infraestrutura existente. É um conjunto de
bibliotecas de tempo de execução abstratas e linguagens de programação que formam um modelo de
computação.
Este nível de abstração pode ser de baixo nível, como em linguagem de máquina em computadores, ou muito
alto como em linguagens de programação de alto nível, por exemplo, Java. Portanto, podemos dizer que, se a
infraestrutura de ativação para a análise de Big Data são sistemas de arquivos distribuídos, conforme
mencionamos, então o modelo de programação para Big Data deve permitir a programação das operações
dentro dos sistemas de arquivos distribuídos.
Em primeiro lugar, esse modelo de programação para Big Data deve suportar operações comuns de Big Data,
como a divisão de grandes volumes de dados. Isso significa particionar e colocar os dados dentro e fora da
memória do computador junto com um modelo para sincronizar os conjuntos de dados posteriormente.
O acesso aos dados deve ser realizado de forma rápida. Deve permitir uma distribuição rápida para nós dentro
de um rack e estes são, potencialmente, os nós de dados para os quais movemos a computação. Isso significa
agendar várias tarefas paralelas de uma vez. Também deve permitir a confiabilidade da computação e tolerância
total a falhas. Isso significa que ele deve permitir replicações programáveis e recuperação de arquivos quando
necessário. Deve ser facilmente escalonável para as notas distribuídas onde os dados são produzidos. Ele
também deve permitir a adição de novos recursos para aproveitar as vantagens de computadores distributivos e
escalar para mais dados ou mais rápido sem perder desempenho, uma vez que há uma variedade de tipos
diferentes de dados, como documentos, gráficos, tabelas, valores-chave, etc.
MapReduce é um modelo de programação de Big Data que oferece suporte a todos os requisitos de
modelagem de Big Data que mencionamos. Ele pode modelar o processamento de grandes dados, dividir
complicações em diferentes tarefas paralelas e fazer uso eficiente de grandes clusters de mercadorias e
sistemas de arquivos distribuídos. Além disso, ele abstrai os detalhes de paralelização, tolerância total,
distribuição de dados, monitoramento e balanceamento de carga.
Um segundo objetivo, suportado pela maioria das estruturas no ecossistema Hadoop, é a capacidade de se
recuperar desses problemas de maneira harmoniosa. Além disso, como mencionamos antes, o Big Data vem em
uma variedade de sabores, como arquivos de texto, gráfico de redes sociais, streaming de dados do sensor e
imagens raster.
Um terceiro objetivo para o ecossistema Hadoop, então, é a capacidade de lidar com esses diferentes tipos de
dados para qualquer tipo de dados.
Um quarto objetivo do ecossistema Hadoop é a capacidade de facilitar um ambiente compartilhado. Uma vez
que mesmo clusters de tamanho modesto podem ter muitos núcleos, é importante permitir que vários trabalhos
sejam executados simultaneamente.
Outro objetivo do ecossistema Hadoop é fornecer valor para sua empresa. O ecossistema inclui uma ampla
gama de projetos de código aberto apoiados por uma grande comunidade ativa.
O modelo MapReduce requer que os mapas e reduza sejam executados independentemente um do outro. Isso
simplifica muito seu trabalho como designer, já que você não precisa lidar com problemas de sincronização. No
entanto, isso significa que os cálculos que têm dependências não podem ser expressos com MapReduce.
Um benefício adicional é que existem muitas empresas que fornecem soluções prontas. Isso significa muitas
opções para você escolher a mais adequada ao seu projeto.