Podcast 01

Versão
Podcast
Disciplina: Projeto em ciência de dados com soluções para
processamento paralelo e distribuído de dados
Título do tema: Introdução a soluções para processamento
paralelo e distribuído de dados.
Autoria: Yuri Sá
Leitura crítica: Henrique Salustiano Silva
Abertura:
Olá! No Podcast de hoje vamos falar sobre um caso de implementação de um

sistema de computação paralela.
A computação paralela vem ganhando muita força nos últimos anos conforme o
volume de dados e a criticidade tem aumentado.
Cada vez mais modelos complexos criados a partir de volumes monstruosos de

dados vêm se tornando a norma para a prática de produtos de dados
envolvendo Big Data e Machine Learning.
Não há no mundo computadores ou servidores em nível de consumidor que

sozinhos conseguiriam processar esses dados a tempo, ainda mais com a
estagnação da capacidade de processamento por um só núcleo, que chegou
no seu máximo físico. Basta observar que os processadores têm ganhado mais
núcleos, mas não tem evoluído a capacidade de processamento por núcleo.
Isso, associado a uma baixa no preço geral do hardware em todos os níveis,

causou uma explosão de produtos e serviços orientados à computação
paralela.
Trabalhando com um software para o mercado financeiro surgiram os primeiros

desafios de processamento de dados da bolsa que é uma operação em tempo
real, exigindo muito processamento estatístico e treinamento de modelos de
redes neurais para calcular investimentos intra-dia, isso quer dizer que as
operações são iniciadas e finalizadas dentro do mesmo dia, mas em geral
duram poucos minutos.
A plataforma disponibilizada pelo cliente operava somente sobre um Sistema

Operacional proprietário e de última versão, sua configuração era totalmente
gráfica e interativa, causando problemas para automação e gerenciamento do
cluster.
Neste sentido, um cluster com máquinas dedicadas em um só serviço era mais

viável devido à natureza do negócio.
Estes requisitos: sistema operacional proprietário, configuração interativa e

ausência de gestão do cluster nos forçou a tomar algumas medidas que foram
aumentando o custo.
Custo este que já estava alto devido ao volume de licenças que o Sistema
operacional exigia, que estava quase igual ao custo de cada computador nó do
cluster! Mesmo assim para minimizar o custo de operação que a gestão
individual dos nós causaria, foi feito um plano de aquisição de máquinas
idênticas para que a instalação e configuração fosse sempre simétrica, quando
a máquina a reiniciava voltava ao seu estado de instalação, tornando fácil a
administração e atualização do sistema. Algo que não seria possível se as
máquinas tivessem hardware dispares entre si.
Assim, os clusters foram sendo formados, em grupos de 5 a 10 máquinas, com

hardware idêntico. Cada cluster com uma imagem que era reinstalada a cada
reboot.
Esta implementação foi feita em uma consultoria de investimentos pequena e

de capital limitado, praticamente uma startup, onde cada real de capital
investido deve ter seu retorno previsto. O orçamento é apertado.
O custo foi mitigado utilizando hardware não especializado, ou seja, doméstico

e comprando em volumes mais alto conseguiu-se reduzir bastante o custo.
Na prática então, toda vez que a máquina reinicia ela faz o download da
imagem do cluster a qual ela pertence, inicia, trabalha o pregão todo
fornecendo computação segundo o modelo, e repete ao final do dia.
A gestão é feita subindo novas imagens de disco quando há atualização,

tornando o processo automatizado.
Fechamento:
Este foi nosso podcast de hoje! Até a próxima!

Podcast 01

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Podcast 01

Enviado por

Direitos autorais:

Formatos disponíveis

Versão

Olá! No Podcast de hoje vamos falar sobre um caso de implementação de um

Cada vez mais modelos complexos criados a partir de volumes monstruosos de

Não há no mundo computadores ou servidores em nível de consumidor que

Isso, associado a uma baixa no preço geral do hardware em todos os níveis,

Trabalhando com um software para o mercado financeiro surgiram os primeiros

A plataforma disponibilizada pelo cliente operava somente sobre um Sistema

Neste sentido, um cluster com máquinas dedicadas em um só serviço era mais

Estes requisitos: sistema operacional proprietário, configuração interativa e

Assim, os clusters foram sendo formados, em grupos de 5 a 10 máquinas, com

Esta implementação foi feita em uma consultoria de investimentos pequena e

O custo foi mitigado utilizando hardware não especializado, ou seja, doméstico

A gestão é feita subindo novas imagens de disco quando há atualização,

Este foi nosso podcast de hoje! Até a próxima!

Você também pode gostar