Pos1149 Coleta e Integração de Dados Pg0218-212!5!202122.Ead-19010.01

04/11/2021 09:45 Roteiro de Estudos
Coleta e Integração de Dados
Roteiro de
Estudos
Autor: Me. Jackson Luis Schirigatti
Revisor: Jaime Gross Garcia
A coleta e a integração de dados em uma arquitetura Big Data são constituídas por uma
complexa camada de ingestão e coleta de dados (camada de aquisição), sendo esta formada
por tarefas de identificação, seleção, priorização, conexão e extração de fontes de dados
internas e externas à organização. Esses são os passos iniciais e que impactam
expressivamente os processos de construção do Pipeline, como o armazenamento, o
processamento e a visualização dos dados tratados.
Assim, este roteiro de estudos fará com que você possa desenvolver possíveis ações
estratégicas de ingestão de dados, bem como gerenciar atividades em projetos de arquitetura
Big Data ou Fast Data, de acordo com a necessidade de negócio, apresentando, de forma coesa,
a melhor arquitetura possível.
Caro(a) estudante, ao ler este roteiro, você vai:
entender o processo de ingestão de dados;
entender a diferença entre ingestão de dados e ETL;
entender a arquitetura Data Lake no processo de ingestão de dados;
compreender as abordagens de comunicação de ingestão de dados assíncrona, síncrona,
batch e real-time;
estudar a arquitetura Fast Data no processo de ingestão de dados;
compreender as atividades de integração e tratamento de dados do tipo Sharding.
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_748779_… 1/15
Introdução
Na modernidade, um imensurável volume de dados está sendo gerado, de diversas fontes e
com uma grande variedade de tipos. A forma de dados gerada por essas fontes pode ser do
tipo estruturada, semiestruturada (ou forma híbrida) e não estruturada. Os dados estruturados
advêm de bases relacionais e transacionais das empresas, indústrias e nuvens de dados já
armazenados, sendo estes de fácil operação e análise.
Contudo, a maior quantidade de dados está sendo gerada de forma não estruturada, ou seja,
de forma não normalizada, e advém de redes sociais, logs, bases nativas, documentos e
sensores dos aplicativos de smartphones e de páginas web. Já a forma semiestruturada ou
híbrida possui uma certa organização, e os dados precisam passar por tratamentos antes de
serem utilizados.
Essa variedade de estruturas de dados necessita de complexas atividades de coleta,
tratamento, processamento e visualização para a tomada de decisão nas organizações. Tal
conjunto de atividades é denominado processo de construção de um Data Pipeline - Pipeline de
dados. As atividades mais difíceis do processo Pipeline de dados estão concentradas na
primeira camada: a camada de ingestão e coleta de dados.
Compreenderemos, em nosso roteiro de estudos, o funcionamento e o impacto do processo de
ingestão de dados, dentro de um conjunto de atividades, para a construção de um Pipeline de
dados (aquisição, armazenamento, processamento e visualização) em arquiteturas modernas,
como Big Data, Data Lake e Fast Data. Estudaremos as abordagens de comunicação de ingestão
de dados, como as comunicações síncronas, assíncronas, batch e real-time. Na sequência,
estudaremos o processo de integração e tratamento de dados heterogêneos em arquiteturas
Big Data, além de identificarmos as principais ferramentas para a redução da complexidade de
integração e tratamento de dados.
Fundamentos do Processo de
Ingestão de Dados
A ingestão de dados é um conceito mais atualizado da aquisição de diversas fontes de dados,
dentro de um processo maior, denominado Pipeline de dados, e dentro de uma arquitetura Big
Data de um sistema de processamento em lote (batch), real-time ou híbrido.
A camada de ingestão de dados, como mostra a Figura 1, está relacionada à priorização e à

categorização dos dados de centenas de fontes de fluxos de dados, como internet,
documentos, Twitter, logs, sensores, dados estruturados de sistemas de bancos de dados
relacionais etc.
Figura 1 - Pipeline de dados de diversas camadas

Fonte: Elaborada pelo autor.
Em conjunto com o processo de coleta de dados, são transferidos os dados, já classificados e

priorizados, para a camada de armazenamento (Data Storage Layer).
A ingestão de dados é uma das camadas mais complexas do processo de Pipeline de dados e
tem como objetivo importar e mover os dados estruturados, semiestruturados e não
estruturados para uma localização em que eles possam ser acessados. A camada de ingestão
de dados é um processo constituído de um conjunto de atividades de planejamento, conexão,
extração e transformação de dados. Contudo, existe uma diferença entre o processo de
ingestão de dados e o processo de extração de dados ETL (Extração - Extract, Transformação -
Transform e Carga - Load). As funcionalidades de ambos os conceitos parecem ser idênticas.
Veremos que essa é uma questão, apenas, de ordem e tecnologia.
Em um processo ETL, dentro de um projeto Data Warehouse ou Data Mart, criados de modo
personalizado, ou até mesmo em Big Data, são realizadas tarefas de extração, transformação e
carregamento de dados específicos, com uma determinada frequência, com janelas de
manutenção de origem/destino, sem impactos de paradas operacionais e dados advindos de
fontes como os sistemas relacionais/transacionais internos e externos. Para Pereira et al. (2019,
p. 44), “depois que os dados estiverem disponíveis (transformados adequadamente e
carregados em um Data Warehouse, ou em outra base de dados), o sistema poderá começar a
processar os dados para exibir informações reais”.
É na fase de pré-processamento dos dados coletados que se faz um tratamento de limpeza,
bem como truncamentos e adaptações nesses dados, de modo a adequá-los ao propósito
esperado de processamento e visualização pelo usuário.
No caso do Data Mart, após a criação dos cubos, é preciso definir quais as dimensões e visões
que devem ser acessadas, e seus usuários, por meio de aplicativos de leitura, podem detalhar
as informações.
Agora, suponha que esses dados sejam originados de diversas fontes, como documentos, logs,
páginas web etc., de tipos diferentes (semiestruturados e não estruturados) e de um volume
diário e considerável de dados (GBs), com janelas de manutenção variável. Esse processo, com
certeza, será de ingestão de dados, também denominado ELT (Extração, Carga e
Transformação) por alguns autores.
O que temos é uma mudança na ordem das tarefas de tecnologias utilizadas para atender às
diversas fontes de dados. Um Big Data utiliza, normalmente, uma ingestão de dados nos
sistemas de armazenamento e, segundo Pereira et al. (2019, p.44), “a complexidade dessa
operação depende muito do formato e da qualidade das fontes de dados e da distância que os
dados estão do estado desejado antes do processamento”.
Esses dados de um Big Data são originados de diversas fontes. São dados heterogêneos, de
formatos variados, como imagens, vídeos, textos e áudios, e necessitam ser inseridos (extração
e carregamento) diretamente no Big Data antes mesmo de seu processamento, para que
possam ser distribuídos para os diversos consumidores específicos.
É imprescindível que algumas propriedades sejam atendidas em uma arquitetura Big Data,
considerando-se o modelo de negócios: consistência, disponibilidade e tolerância a falhas
(CAP). Especificamente sobre os dados consistentes, as instituições devem optar entre um
sistema full time, tolerante a falhas, ou de forma consistente, no qual os usuários terão, durante
todo o tempo, a mesma informação. É importante salientar que as propriedades de um banco
de dados relacional diferem-se das propriedades de um Big Data.
Em uma arquitetura Big Data, esse repositório é centralizado e denominado Data Lake. A ideia
da arquitetura Data Lake é receber qualquer tipo de dado, sem transformação ou com
transformação, como ilustra a Figura 2, a seguir.
Figura 2 - Arquitetura Big Data com um Data Lake

Fonte: Elaborada pelo autor.
Observe que o Data Lake recebe dados de fontes diretas do BI (Business Intelligence) ou de
bases relacionais com o ERP e CRM por meio do ETL, tornando-os pronto para uso, tanto para
um Data Warehouse quanto para sistemas de análise, como o próprio BI. O Data Lake também
recebe dados não estruturados e semiestruturados de bancos de dados NO SQL, de nuvens e
páginas web, por meio de diversas tecnologias e modelos, como HDFS (Hadoop Distributed File
System), Map Reduce (tarefas de processamento de bloco de códigos) e outros.
LEITURA
Framework de Big Data

Autor: Mariana Araújo Pereira, Fábio Berlinck, Alessandra Maciel
Paz Milani, Daniel dos Santos Brandão e Roque Maitino Neto
Editora: SAGAH
Ano: 2019
Acompanhe o Capítulo “Arquitetura de hardware/software de
Big Data” (páginas 44 a 56), que comenta sobre a arquitetura de
hardware em Big Data (computação em cluster), processo ETL e
processo HDFS (Hadoop Distributed System), sistemas de
arquivos distribuídos Hadoop, utilização do ambiente Big Data,
ecossistema Hadoop e Map Reduce. Você também poderá
encontrar mais informações sobre os conceitos e as tecnologias
utilizados em um ecossistema de ingestão, armazenamento,
processamento e visualização de dados.
Esse título está disponível na Minha Biblioteca Laureate.
Abordagem da Ingestão de
Dados
O Big Data é um conjunto de dados muito diversificado em seus tipos e que, segundo Morais et
al. (2018, p. 13), “por este motivo, necessita de ferramentas preparadas para lidar com um
grande volume de dados, de forma que toda e qualquer informação, nesses meios, possa ser
encontrada, analisada e aproveitada em tempo hábil”. Essa característica do Big Data, por meio
de ferramentas específicas de coleta e armazenamento, faz dele um mecanismo que reúne
dados de várias fontes, trazendo vantagem competitiva e auxiliando na tomada de decisão das
organizações.
Contudo, a necessidade de informação de diversas fontes talvez não seja o suficiente para uma
tomada de decisão eficiente, pois, além da diversidade da informação, é necessário utilizá-la no
tempo correto, a fim de que possa ser efetivamente estratégica; do contrário, talvez a
informação não seja mais útil para o fim proposto.
Para Morais et al. (2018, p.16),
o principal objetivo do desenvolvimento de soluções Big Data é oferecer uma

abordagem consistente no tratamento do constante crescimento e da
complexidade dos dados. Para isso, você precisa considerar os 5 Vs, velocidade,
volume, variedade, valor [(riqueza nos dados)] e veracidade [(dados verídicos)].
Além dessas características, a abordagem em um processo de ingestão de dados, cujo objetivo

é trazer os dados para o sistema de processamento de dados, também está relacionada à
forma com que ocorrerá a comunicação entre as fontes, podendo ser por meio de uma
comunicação síncrona, assíncrona, real-time ou batch.
Uma comunicação assíncrona, diferentemente da comunicação síncrona, é aquela que ocorre
quando um processo A envia uma mensagem ao processo B e continua a execução sem
aguardar a resposta do processo B. Sendo assim, é possível executar um ou mais processos ao
mesmo tempo. A comunicação assíncrona é muito útil para a troca de dados quando há a
necessidade de orquestrar muitas aplicações, formatos heterogêneos de dados,
transformações e roteamento de dados. Já em uma comunicação síncrona, os processos são
dependentes, e as requisições são enviadas de um processo A para um processo B; nesse caso,
o processo emissor é bloqueado até que o receptor envie uma resposta.
O Big Data, devido às suas principais características, como os 5 Vs - velocidade, volume,
variedade (dados estruturados e não estruturados), valor e veracidade (permitir a sua análise) -,
utiliza uma comunicação real-time em processamento stream, produzindo, assim, resultados
em tempo hábil. Para Stonebraker, Çetintemel e Zdonik (2005 apud Bordin et al., 2016), as
aplicações de stream processing têm como principais características: (1) a necessidade de
processar os dados em memória de modo a manter a latência baixa; (2) o suporte a uma
linguagem de consulta de alto nível (em alguns casos, similar a SQL); (3) a habilidade de lidar
com imperfeições nos dados (atrasos, dados faltando ou fora de ordem); (4) a geração de
resultados previsíveis e repetíveis; (5) a integração entre dados de tempo real e dados
armazenados; (6) a garantia de segurança dos dados e disponibilidade do sistema; (7) e
partição e escalabilidade automática de aplicações.
A SQL pode ser utilizada juntamente com outras linguagens externas e possibilitar acesso aos
dados, permitindo que se realizem operações de manutenção. O maior problema de
performance em uma aplicação diz respeito a projetos de bancos de dados mal construídos e à
consulta SQL superficial sem tratamento por um especialista, pois estes consomem o
processador e a memória excessivamente. As aplicações que utilizam o banco de dados como
uma camada sob a aplicação, com o uso de princípios como integridade de dados, validação,
controle de acesso e segurança, favorecem um ambiente eficaz e altamente profissional.
Dentre os modelos e as plataformas de sistema de processamento de stream para
processamento em tempo real, estão Apache Storm, Spark Stream e Apache Flink. O stream,
definido como um grupo de sinais digitais que são usados por distintos tipos de transmissão de
conteúdos, é um conjunto de dados gerados em tempo real e tem relação com o processo de
envio de registro de dados de modo contínuo, à medida que os dados são gerados.
LEITURA
Big Data
Autor: Cezar Taurion
Editora: Brasport
Ano: 2013
Faça a leitura das páginas 24 a 70, sobre o conceito de Stream
Processing, o novo paradigma da garimpagem em tempo real
que utiliza ferramentas de análise preditiva e bancos de dados
em memória. Com a leitura, você terá informações sobre o
processamento de dados em tempo real, utilizado para suprir as
necessidades de informações instantâneas ou quase
instantâneas, na ingestão de dados organizacionais e na tomada
de decisão eficiente.
Este título está disponível na Biblioteca Virtual da Laureate.
Arquitetura Fast Data

O termo Fast Data, ou seja, dados rápidos, é uma evolução do Big Data, e a arquitetura pode
ser visualizada no diagrama da Figura 2, do Tópico 1 - Fundamentos do processo de ingestão de
dados. A arquitetura Fast Data utiliza o processo de ingestão de dados em tempo real dentro de
um processo de aquisição, armazenamento, processamento e visualização de dados.
Para a Equipe DSA (2019, on-line), “construir arquiteturas de Fast Data que podem fazer esse
tipo de processamento de milissegundos [em tempo real] significa usar sistemas e abordagens
que fornecem processamento de dados real-time (ou near real-time, [próximo de um tempo
real]) e econômicos focados na produtividade”.
Ainda segundo a Equipe DSA (2019), em uma arquitetura Fast Data, a aquisição ou a ingestão de
dados necessita:
a. ser de forma assíncrona, para evitar contrapressão (dados gerados mais rapidamente do
que são consumidos);
b. usar paralelismo no processo de transformação dos dados antes do processamento de
limpeza e eliminação de duplicação de dados;
c. na etapa de armazenamento (Figura 1, Data Storage Layer), pensar em não utilizar
normalizações, mas uma modelagem com base em casos de uso, devido à necessidade de
desempenho;
d. no processamento de dados, dentro de um cenário Fast Data, o processamento deve ser
híbrido (observe a Figura 1, na camada processamento — Data Processing Layer);
e. na camada de visualização (Figura 1, Data Visualization Layer), utilizar recursos gráficos de
forma clara, objetiva e eficiente para os usuários, sem processar dados nessa camada;
f. no gerenciamento da infraestrutura Fast Data, deve ser utilizada uma diversificação de
armazenamento Open Source de baixo custo, implantação em clusters feitos de máquinas
commodities, conectadas em redes de baixo custo, e ferramentas e tecnologias de código
aberto, além de abordagens de práticas recomendadas para a colaboração entre equipes
de desenvolvimento de software e operação (DevOps).
Integração de Dados
(Particionamento Horizontal -
Sharding)
Devido a uma tendência de crescimento de dados advindos de diversas fontes, um volume
enorme de dados é gerado, impactando as demandas previstas dos bancos de dados. Esse
cenário resulta em um novo projeto de redimensionamento de armazenamento, em termos de
hardware, denominado “redimensionamento vertical”, envolvendo adição de disco e memória
RAM.
Contudo, técnicas e métodos específicos de processos de software, como o Sharding, podem
resolver o problema. O Sharding é uma forma de fragmentação ou particionamento utilizada
em banco de dados, a qual, segundo Pereira et al. (2019, p. 57),
possibilita o crescimento do banco de forma horizontal e praticamente infinita.

Assim, caso a demanda de armazenamento e processamento aumente de
forma rápida [e considerável], é possível manter as funcionalidades e a
disponibilidade de dados presentes [...] [e sem a necessidade de ampliar o
hardware].
Um dos objetivos do método Sharding é possibilitar o aumento da capacidade de

armazenamento e processamento de um conjunto de dados que são fragmentados em
pequenas partições, denominadas shards, e, com o conceito de banco de dados distribuídos,
partilhados em vários servidores, denominados clusters.
Nesse sentido, esse método faz com que o armazenamento e o processamento dos dados
possam ser expandidos para outras máquinas, promovendo alta capacidade e alta velocidade
ao sistema. Um exemplo de compartilhamento de recursos são os blockchains, ou seja, um
armazenamento distribuído de informações públicas conectadas em redes seguras do tipo P2P
(registro público de informações), mas sem utilizar servidor central.
No método Sharding, há um servidor controlando o particionamento do armazenamento. O
particionamento permite que as várias partes do objeto particionado sejam gerenciadas de
modo coletivo ou individualmente, reduzindo o custo total da propriedade de dados, por meio
de uma abordagem de arquivamento em camadas, mantendo informações mais relevantes.
Particionam-se objetos como uma tabela, por exemplo, para que se utilize uma chave de
particionamento, cujo conjunto de colunas possa determinar em qual partição ficará uma linha.
Para Pereira et al. (2019, p. 59), “o Sharding é sempre gerenciado por um servidor e, geralmente,
a um esquema de replicação em que o shard pode ser replicado duas vezes, por exemplo”.
LEITURA

Editora: SAGAH
Ano: 2019
Comentário: Faça a leitura dos trechos das páginas 28 a 32 (O
que é um Sharding), páginas 32 a 36 (Sharding em clusters),
páginas 36 a 40 (Sharding e índices) e das páginas 57 a 71,
(Frameworks que utilizam sharding como forma de distribuição),
que têm como objetivo descrever a arquitetura dos frameworks
que utilizam Sharding, Apache Cassandra e MongoDB. A leitura
proporcionará mais informações sobre o método de
fragmentação Sharding em clusters e suas tecnologias
associadas.
Tratamento de Dados
Em um alto fluxo de dados, como ocorre no Big Data e no Fast Data, é necessário verificarmos
métodos de tratamento de dados de forma eficiente, como o paralelismo e a utilização de
aplicações específicas, tais como os módulos da Apache (Spark Streaming, Flink e Storm), que
são exemplos de sistemas desenvolvidos para auxiliar no tratamento de dados em tempo real
(PEREIRA et al., 2019). Também, devido à imensa massa de dados gerada, é necessário um
sistema de arquivos distribuídos HDFS (Hadoop).
Essas ferramentas de integração e tratamento de dados geram um ecossistema de aplicações
que pode ser usado para revelar informações a respeito de dados históricos e de fluxo de
informações em tempo real, ajudando a analisar eventos passados, a compreender atividades
atuais e a atuar de modo preditivo com relação ao futuro. O ecossistema Hadoop é utilizado por
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_748779… 10/15
grandes empresas, como Facebook, LinkedIn, Amazon e Twitter, e trabalha com uma
quantidade massiva de dados dentro de uma arquitetura Big Data.
O Apache Hadoop, por exemplo, “é um framework de código aberto para o processamento e
armazenamento de dados em larga escala, com cluster de máquinas organizadas em uma
máquina mestre e várias escravas [...], promovendo soluções em uma única plataforma”
(PEREIRA et al., 2019, p. 77). O framework Hadoop é composto de um conjunto de módulos
integrados de computação distribuída, desenvolvidos pela Apache Software Foundation. Alguns
desses principais módulos seriam:
Hadoop Distributed File System (HDFS): sistema de arquivos distribuídos do Hadoop que
oferece acesso aos dados da aplicação.
O Hadoop Distributed File System ou sistema de arquivos distribuídos surge

com a necessidade de se trabalhar com arquivos grandes. O HDFS faz a quebra
em blocos desses arquivos e os distribui em diversos nós (máquinas), com
replicação em grau três como segurança no caso de um nó falhar (PAIVA, 2016
apud GALDINO, 2016, p. 7).
Hadoop Yarn: framework para agendamento de tarefas e gestão de recursos do cluster.
Através do Resource Manager, realiza a locação de recursos nos nós do cluster

para a realização de tarefas das aplicações. Dessa maneira, cada aplicação
sabe em que máquina os seus recursos estão alocados, e mantém o princípio
da localidade, que é realizar o processamento do código onde estão os dados
(YARN, 2016 apud GALDINO, 2016, p. 7).
Hadoop Map Reduce: sistema baseado no Yarn para o processamento paralelo de grandes
conjuntos de dados.
É o sistema analítico [...]. Segue o princípio da localidade em que o código é

enviado para o local onde os dados estão para serem processados. O
processamento analítico é distribuído em vários servidores, dos quais se deseja
tirar informação. Através de um processamento paralelo/distribuído, os dados
são divididos em partições ou ficheiros através da função Split. Nesse processo,
o Map Reduce monta a separação dos dados em partições, mapeia as
atividades em cada local e duplica em ambientes e depois faz as reduções.
Durante o mapeamento através do processamento em cada nó da partição ou
cluster, são formados pares valor-chave enviados ao redutor, agrupando pares
com as mesmas características (PAIVA, 2016 apud GALDINO, 2016, p. 7).
Ambari: ferramenta para suporte, gerenciamento e monitoramento de outros módulos

Hadoop, baseados na web.
Olap: ferramenta que tem por foco realizar análises que requerem mais armazenamento
e poder de processamento.
Cassandra: bancos de dados com tolerância a falhas e escalável.
Spark: motor computacional rápido e de propósitos gerais para trabalhar com dados. Tem
a mesma funcionalidade do Map Reduce; contudo, roda 100 vezes mais rápido.
O Spark atua sendo mais abrangente na questão de diferentes tipos de

processamento. Também executa o código em paralelo. Sua principal diferença
em relação ao Map Reduce é o fato deste persistir em disco. O Spark trabalha
em memória, faz encadeamento de funções e só apresenta o resultado no fim
do processamento (PAIVA, 2016 apud GALDINO, 2016, p. 8).
HBase: banco de dados distribuído e escalável com suporte e armazenamento de dados e

estruturas em grandes tabelas, lembrando que tabelas são conjuntos ordenados de
linhas, também denominadas tuplas. Cada tupla é o mesmo que um registro de dados.
Em dados não estruturados, em um modelo do tipo colunas familiares, a estrutura
equivale ao tradicional, porém as informações são armazenadas em colunas.
É um banco de dados Nosql que processa grandes volumes de dados de

maneira rápida e em tempo real. Trabalha com o conceito-chave – valor, em
que cada dado é associado a outro trazendo uma característica similar ao
modelo relacional com sua organização se dando em linhas, colunas, tabelas e
famílias de colunas (PAIVA, 2016 apud GALDINO, 2016, p. 8).
NoSQL, de modo geral, é interpretado como Not only SQL e tem por objetivo levar a ideia de
que muitas aplicações necessitam de distintos sistemas que se diferem dos sistemas SQL
relacionais tradicionais, contemplando a ampliação das necessidades de gerenciamento dos
dados. A maior parte desses sistemas NoSQL se faz através de bancos de dados distribuídos
com prioridade no armazenamento dos dados semiestruturados, no alto desempenho, na
disponibilidade e na replicação dos dados e da escalabilidade.
O Spark Stream é um framework que agrupa streams de lotes em um intervalo de tempo
determinado, tratando a coleção de lotes com Resilient Distributed Datasets, sendo um
mecanismo que utiliza o DataStream (stream de dados) e o fragmenta em pequenos lotes
(microbats), processando-os (tratamento de dados) em tempo real por meio de operações de
filtragem, mineração de dados, junção, agregação, IA (Inteligência Artificial — aprendizagem de
máquina) e outras funções de processamento, para que os dados possam ser armazenados em
um banco de dados, onde possam ser visualizados e utilizados posteriormente. O Spark Stream
faz parte de um módulo do ecossistema Hadoop e se utiliza de particionamento de streams, de

processamento microbatches, com operadores nativos, deteminísticos e de linguagem de
programação Scala, Java e Python.
A produção dos data streams é realizada por entidades externas, chamadas fontes de dados. Os
dados produzidos são ingeridos pelos Stream Processing Systems para processamento, através
de um componente denominado source.
Em um processo de inteligência artificial, de modo a derivar os modelos preditivos e se
conseguir maior eficiência de aprendizagem, é preciso que os algoritmos façam uso de menor
quantidade de domínios, por meio de modelos treinados e um conjunto grande de dados de
uma base. Obtém-se eficiência também com o uso de processos que se fundamentam em
modelos indutivos, baseados na experiência, tecendo predições das possibilidades com base
no que já ocorreu.
LEITURA

Editora: SAGAH
Ano: 2019
Comentário: Faça a leitura dos trechos das páginas 76 a 84,
sobre Hadoop, a ferramenta principal de Big Data, que utiliza a
computação distribuída com alta escalabilidade; sobre os
principais módulos do ecossistema Hadoop, como o Apache
Spark; e sobre a apresentação da arquitetura do Hadoop e do
Spark. Com a leitura sobre a tecnologia e ecossistema Hadoop,
você poderá compreender a sua aplicabilidade dentro de uma
arquitetura Big Data.
Conclusão
Neste roteiro, foi possível compreender que a coleta e a integração de dados correspondem a
um processo de ingestão de dados dentro de uma arquitetura Big Data ou Fast Data. Esse
processo situa-se dentro de um Pipeline de dados, em uma segunda camada, que tem como
objetivo a priorização e a categorização dos dados de centenas de fontes de fluxos, a qual, em
conjunto com o processo de coleta de dados, transfere os diversos dados, já classificados e
priorizados, para a camada de armazenamento (Data Storage Layer).
Compreendemos que a diferença entre ETL e a ingestão de dados, dentro de um projeto Data
Warehouse ou até mesmo em Big Data, está relacionada à frequência, às janelas de manutenção
de origem/destino e à origem das fontes de dados heterogêneos de formatos variados que
necessitam ser inseridos (extração e carregamento) diretamente no Big Data.
Entendemos o conceito de Big Data e Fast Data, suas características e a abordagem em um
processo de ingestão de dados, que define as formas de comunicação síncrona, assíncrona,
real-time e em lote. Em uma arquitetura Fast Data, é utilizada uma comunicação real-time,
devido às demandas de processamento Stream. Já em uma arquitetura Big Data, é utilizada uma
comunicação híbrida (real-time e em lote).
Finalmente, compreendemos o método Sharding de distribuição para o aumento da capacidade
de armazenamento e processamento de um conjunto de dados em uma arquitetura Big Data.
Além disso, explorarmos as tecnologias de tratamento de dados em ecossistema Hadoop
Apache e seus módulos para coleta, integração, armazenamento, processamento e visualização
dos dados.
Referências
BORDIN, M. V. et al. Trabalhando com Big Data em Tempo Real. In: ESCOLA REGIONAL DE ALTO
DESEMPENHO DO ESTADO DO RIO GRANDE DO SUL (ERAD), 16., 2016. Anais... São Leopoldo:
Sociedade Brasileira de Computação (SBC), 2016. Disponível em:
https://www.researchgate.net/publication/312891285_Trabalhando_com_Big_Data_em_Tempo_Real.
Acesso em: 28 set. 2021.
EQUIPE DSA. Fast Data – A Evolução Do Big Data. Data Science Academy, 02 jan. 2021.
Disponível em: https://blog.dsacademy.com.br/fast-data-a-evolucao-do-big-data/. Acesso em:
28 set. 2021.
GALDINO, N. Big Data: Ferramentas e Aplicabilidade. In: SIMPÓSIO DE EXCELÊNCIA EM GESTÃO

E TECNOLOGIA (SEGeT), 13., 2016. Anais... Rio de Janeiro: AEDB, 2016. Disponível em:
https://www.aedb.br/seget/arquivos/artigos16/472427.pdf. Acesso em: 22 set. 2020.
MORAIS, I. S. de et al. Introdução a Big Data e Internet das Coisas (IoT). Porto Alegre: SAGAH,
2018.
PEREIRA, M. J. et al. Framework de Big Data. Porto Alegre: SAGAH, 2019.
TAURION, C. Big Data. Rio de Janeiro: Brasport, 2013.

Pos1149 Coleta e Integração de Dados Pg0218-212!5!202122.Ead-19010.01

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Pos1149 Coleta e Integração de Dados Pg0218-212!5!202122.Ead-19010.01

Enviado por

Direitos autorais:

Formatos disponíveis

04/11/2021 09:45 Roteiro de Estudos

Coleta e Integração de Dados

A camada de ingestão de dados, como mostra a Figura 1, está relacionada à priorização e à

Figura 1 - Pipeline de dados de diversas camadas

Em conjunto com o processo de coleta de dados, são transferidos os dados, já classificados e

Figura 2 - Arquitetura Big Data com um Data Lake

Framework de Big Data

Esse título está disponível na Minha Biblioteca Laureate.

o principal objetivo do desenvolvimento de soluções Big Data é oferecer uma

Além dessas características, a abordagem em um processo de ingestão de dados, cujo objetivo

Este título está disponível na Biblioteca Virtual da Laureate.

Arquitetura Fast Data

possibilita o crescimento do banco de forma horizontal e praticamente infinita.

Um dos objetivos do método Sharding é possibilitar o aumento da capacidade de

Framework de Big Data

Esse título está disponível na Minha Biblioteca Laureate.

O Hadoop Distributed File System ou sistema de arquivos distribuídos surge

Hadoop Yarn: framework para agendamento de tarefas e gestão de recursos do cluster.

Através do Resource Manager, realiza a locação de recursos nos nós do cluster

É o sistema analítico [...]. Segue o princípio da localidade em que o código é

Ambari: ferramenta para suporte, gerenciamento e monitoramento de outros módulos

O Spark atua sendo mais abrangente na questão de diferentes tipos de

HBase: banco de dados distribuído e escalável com suporte e armazenamento de dados e

É um banco de dados Nosql que processa grandes volumes de dados de

faz parte de um módulo do ecossistema Hadoop e se utiliza de particionamento de streams, de

Framework de Big Data

Esse título está disponível na Minha Biblioteca Laureate.

GALDINO, N. Big Data: Ferramentas e Aplicabilidade. In: SIMPÓSIO DE EXCELÊNCIA EM GESTÃO

Você também pode gostar