Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 2

Versão

Podcast
Disciplina: Projeto em ciência de dados com soluções para
processamento paralelo e distribuído de dados
Título do tema: Introdução a soluções para processamento
paralelo e distribuído de dados.
Autoria: Yuri Sá
Leitura crítica: Henrique Salustiano Silva

Abertura:

Olá! No Podcast de hoje vamos falar sobre um caso de implementação de um


sistema de computação paralela.

A computação paralela vem ganhando muita força nos últimos anos conforme o
volume de dados e a criticidade tem aumentado.

Cada vez mais modelos complexos criados a partir de volumes monstruosos de


dados vêm se tornando a norma para a prática de produtos de dados
envolvendo Big Data e Machine Learning.

Não há no mundo computadores ou servidores em nível de consumidor que


sozinhos conseguiriam processar esses dados a tempo, ainda mais com a
estagnação da capacidade de processamento por um só núcleo, que chegou
no seu máximo físico. Basta observar que os processadores têm ganhado mais
núcleos, mas não tem evoluído a capacidade de processamento por núcleo.

Isso, associado a uma baixa no preço geral do hardware em todos os níveis,


causou uma explosão de produtos e serviços orientados à computação
paralela.

Trabalhando com um software para o mercado financeiro surgiram os primeiros


desafios de processamento de dados da bolsa que é uma operação em tempo
real, exigindo muito processamento estatístico e treinamento de modelos de
redes neurais para calcular investimentos intra-dia, isso quer dizer que as
operações são iniciadas e finalizadas dentro do mesmo dia, mas em geral
duram poucos minutos.

A plataforma disponibilizada pelo cliente operava somente sobre um Sistema


Operacional proprietário e de última versão, sua configuração era totalmente
gráfica e interativa, causando problemas para automação e gerenciamento do
cluster.

Neste sentido, um cluster com máquinas dedicadas em um só serviço era mais


viável devido à natureza do negócio.

Estes requisitos: sistema operacional proprietário, configuração interativa e


ausência de gestão do cluster nos forçou a tomar algumas medidas que foram
aumentando o custo.
Custo este que já estava alto devido ao volume de licenças que o Sistema
operacional exigia, que estava quase igual ao custo de cada computador nó do
cluster! Mesmo assim para minimizar o custo de operação que a gestão
individual dos nós causaria, foi feito um plano de aquisição de máquinas
idênticas para que a instalação e configuração fosse sempre simétrica, quando
a máquina a reiniciava voltava ao seu estado de instalação, tornando fácil a
administração e atualização do sistema. Algo que não seria possível se as
máquinas tivessem hardware dispares entre si.

Assim, os clusters foram sendo formados, em grupos de 5 a 10 máquinas, com


hardware idêntico. Cada cluster com uma imagem que era reinstalada a cada
reboot.

Esta implementação foi feita em uma consultoria de investimentos pequena e


de capital limitado, praticamente uma startup, onde cada real de capital
investido deve ter seu retorno previsto. O orçamento é apertado.

O custo foi mitigado utilizando hardware não especializado, ou seja, doméstico


e comprando em volumes mais alto conseguiu-se reduzir bastante o custo.

Na prática então, toda vez que a máquina reinicia ela faz o download da
imagem do cluster a qual ela pertence, inicia, trabalha o pregão todo
fornecendo computação segundo o modelo, e repete ao final do dia.

A gestão é feita subindo novas imagens de disco quando há atualização,


tornando o processo automatizado.

Fechamento:

Este foi nosso podcast de hoje! Até a próxima!

Você também pode gostar