Escolar Documentos
Profissional Documentos
Cultura Documentos
Roteiro de
Estudos
Autor: Me. Jackson Luis Schirigatti
Revisor: Jaime Gross Garcia
A coleta e a integração de dados em uma arquitetura Big Data são constituídas por uma
complexa camada de ingestão e coleta de dados (camada de aquisição), sendo esta formada
por tarefas de identificação, seleção, priorização, conexão e extração de fontes de dados
internas e externas à organização. Esses são os passos iniciais e que impactam
expressivamente os processos de construção do Pipeline, como o armazenamento, o
processamento e a visualização dos dados tratados.
Assim, este roteiro de estudos fará com que você possa desenvolver possíveis ações
estratégicas de ingestão de dados, bem como gerenciar atividades em projetos de arquitetura
Big Data ou Fast Data, de acordo com a necessidade de negócio, apresentando, de forma coesa,
a melhor arquitetura possível.
Caro(a) estudante, ao ler este roteiro, você vai:
entender o processo de ingestão de dados;
entender a diferença entre ingestão de dados e ETL;
entender a arquitetura Data Lake no processo de ingestão de dados;
compreender as abordagens de comunicação de ingestão de dados assíncrona, síncrona,
batch e real-time;
estudar a arquitetura Fast Data no processo de ingestão de dados;
compreender as atividades de integração e tratamento de dados do tipo Sharding.
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_748779_… 1/15
04/11/2021 09:45 Roteiro de Estudos
Introdução
Na modernidade, um imensurável volume de dados está sendo gerado, de diversas fontes e
com uma grande variedade de tipos. A forma de dados gerada por essas fontes pode ser do
tipo estruturada, semiestruturada (ou forma híbrida) e não estruturada. Os dados estruturados
advêm de bases relacionais e transacionais das empresas, indústrias e nuvens de dados já
armazenados, sendo estes de fácil operação e análise.
Contudo, a maior quantidade de dados está sendo gerada de forma não estruturada, ou seja,
de forma não normalizada, e advém de redes sociais, logs, bases nativas, documentos e
sensores dos aplicativos de smartphones e de páginas web. Já a forma semiestruturada ou
híbrida possui uma certa organização, e os dados precisam passar por tratamentos antes de
serem utilizados.
Essa variedade de estruturas de dados necessita de complexas atividades de coleta,
tratamento, processamento e visualização para a tomada de decisão nas organizações. Tal
conjunto de atividades é denominado processo de construção de um Data Pipeline - Pipeline de
dados. As atividades mais difíceis do processo Pipeline de dados estão concentradas na
primeira camada: a camada de ingestão e coleta de dados.
Compreenderemos, em nosso roteiro de estudos, o funcionamento e o impacto do processo de
ingestão de dados, dentro de um conjunto de atividades, para a construção de um Pipeline de
dados (aquisição, armazenamento, processamento e visualização) em arquiteturas modernas,
como Big Data, Data Lake e Fast Data. Estudaremos as abordagens de comunicação de ingestão
de dados, como as comunicações síncronas, assíncronas, batch e real-time. Na sequência,
estudaremos o processo de integração e tratamento de dados heterogêneos em arquiteturas
Big Data, além de identificarmos as principais ferramentas para a redução da complexidade de
integração e tratamento de dados.
Fundamentos do Processo de
Ingestão de Dados
A ingestão de dados é um conceito mais atualizado da aquisição de diversas fontes de dados,
dentro de um processo maior, denominado Pipeline de dados, e dentro de uma arquitetura Big
Data de um sistema de processamento em lote (batch), real-time ou híbrido.
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_748779_… 2/15
04/11/2021 09:45 Roteiro de Estudos
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_748779_… 3/15
04/11/2021 09:45 Roteiro de Estudos
No caso do Data Mart, após a criação dos cubos, é preciso definir quais as dimensões e visões
que devem ser acessadas, e seus usuários, por meio de aplicativos de leitura, podem detalhar
as informações.
Agora, suponha que esses dados sejam originados de diversas fontes, como documentos, logs,
páginas web etc., de tipos diferentes (semiestruturados e não estruturados) e de um volume
diário e considerável de dados (GBs), com janelas de manutenção variável. Esse processo, com
certeza, será de ingestão de dados, também denominado ELT (Extração, Carga e
Transformação) por alguns autores.
O que temos é uma mudança na ordem das tarefas de tecnologias utilizadas para atender às
diversas fontes de dados. Um Big Data utiliza, normalmente, uma ingestão de dados nos
sistemas de armazenamento e, segundo Pereira et al. (2019, p.44), “a complexidade dessa
operação depende muito do formato e da qualidade das fontes de dados e da distância que os
dados estão do estado desejado antes do processamento”.
Esses dados de um Big Data são originados de diversas fontes. São dados heterogêneos, de
formatos variados, como imagens, vídeos, textos e áudios, e necessitam ser inseridos (extração
e carregamento) diretamente no Big Data antes mesmo de seu processamento, para que
possam ser distribuídos para os diversos consumidores específicos.
É imprescindível que algumas propriedades sejam atendidas em uma arquitetura Big Data,
considerando-se o modelo de negócios: consistência, disponibilidade e tolerância a falhas
(CAP). Especificamente sobre os dados consistentes, as instituições devem optar entre um
sistema full time, tolerante a falhas, ou de forma consistente, no qual os usuários terão, durante
todo o tempo, a mesma informação. É importante salientar que as propriedades de um banco
de dados relacional diferem-se das propriedades de um Big Data.
Em uma arquitetura Big Data, esse repositório é centralizado e denominado Data Lake. A ideia
da arquitetura Data Lake é receber qualquer tipo de dado, sem transformação ou com
transformação, como ilustra a Figura 2, a seguir.
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_748779_… 4/15
04/11/2021 09:45 Roteiro de Estudos
Observe que o Data Lake recebe dados de fontes diretas do BI (Business Intelligence) ou de
bases relacionais com o ERP e CRM por meio do ETL, tornando-os pronto para uso, tanto para
um Data Warehouse quanto para sistemas de análise, como o próprio BI. O Data Lake também
recebe dados não estruturados e semiestruturados de bancos de dados NO SQL, de nuvens e
páginas web, por meio de diversas tecnologias e modelos, como HDFS (Hadoop Distributed File
System), Map Reduce (tarefas de processamento de bloco de códigos) e outros.
LEITURA
Abordagem da Ingestão de
Dados
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_748779_… 5/15
04/11/2021 09:45 Roteiro de Estudos
O Big Data é um conjunto de dados muito diversificado em seus tipos e que, segundo Morais et
al. (2018, p. 13), “por este motivo, necessita de ferramentas preparadas para lidar com um
grande volume de dados, de forma que toda e qualquer informação, nesses meios, possa ser
encontrada, analisada e aproveitada em tempo hábil”. Essa característica do Big Data, por meio
de ferramentas específicas de coleta e armazenamento, faz dele um mecanismo que reúne
dados de várias fontes, trazendo vantagem competitiva e auxiliando na tomada de decisão das
organizações.
Contudo, a necessidade de informação de diversas fontes talvez não seja o suficiente para uma
tomada de decisão eficiente, pois, além da diversidade da informação, é necessário utilizá-la no
tempo correto, a fim de que possa ser efetivamente estratégica; do contrário, talvez a
informação não seja mais útil para o fim proposto.
Para Morais et al. (2018, p.16),
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_748779_… 6/15
04/11/2021 09:45 Roteiro de Estudos
resultados previsíveis e repetíveis; (5) a integração entre dados de tempo real e dados
armazenados; (6) a garantia de segurança dos dados e disponibilidade do sistema; (7) e
partição e escalabilidade automática de aplicações.
A SQL pode ser utilizada juntamente com outras linguagens externas e possibilitar acesso aos
dados, permitindo que se realizem operações de manutenção. O maior problema de
performance em uma aplicação diz respeito a projetos de bancos de dados mal construídos e à
consulta SQL superficial sem tratamento por um especialista, pois estes consomem o
processador e a memória excessivamente. As aplicações que utilizam o banco de dados como
uma camada sob a aplicação, com o uso de princípios como integridade de dados, validação,
controle de acesso e segurança, favorecem um ambiente eficaz e altamente profissional.
Dentre os modelos e as plataformas de sistema de processamento de stream para
processamento em tempo real, estão Apache Storm, Spark Stream e Apache Flink. O stream,
definido como um grupo de sinais digitais que são usados por distintos tipos de transmissão de
conteúdos, é um conjunto de dados gerados em tempo real e tem relação com o processo de
envio de registro de dados de modo contínuo, à medida que os dados são gerados.
LEITURA
Big Data
Autor: Cezar Taurion
Editora: Brasport
Ano: 2013
Faça a leitura das páginas 24 a 70, sobre o conceito de Stream
Processing, o novo paradigma da garimpagem em tempo real
que utiliza ferramentas de análise preditiva e bancos de dados
em memória. Com a leitura, você terá informações sobre o
processamento de dados em tempo real, utilizado para suprir as
necessidades de informações instantâneas ou quase
instantâneas, na ingestão de dados organizacionais e na tomada
de decisão eficiente.
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_748779_… 7/15
04/11/2021 09:45 Roteiro de Estudos
Integração de Dados
(Particionamento Horizontal -
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_748779_… 8/15
04/11/2021 09:45 Roteiro de Estudos
Sharding)
Devido a uma tendência de crescimento de dados advindos de diversas fontes, um volume
enorme de dados é gerado, impactando as demandas previstas dos bancos de dados. Esse
cenário resulta em um novo projeto de redimensionamento de armazenamento, em termos de
hardware, denominado “redimensionamento vertical”, envolvendo adição de disco e memória
RAM.
Contudo, técnicas e métodos específicos de processos de software, como o Sharding, podem
resolver o problema. O Sharding é uma forma de fragmentação ou particionamento utilizada
em banco de dados, a qual, segundo Pereira et al. (2019, p. 57),
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_748779_… 9/15
04/11/2021 09:45 Roteiro de Estudos
LEITURA
Tratamento de Dados
Em um alto fluxo de dados, como ocorre no Big Data e no Fast Data, é necessário verificarmos
métodos de tratamento de dados de forma eficiente, como o paralelismo e a utilização de
aplicações específicas, tais como os módulos da Apache (Spark Streaming, Flink e Storm), que
são exemplos de sistemas desenvolvidos para auxiliar no tratamento de dados em tempo real
(PEREIRA et al., 2019). Também, devido à imensa massa de dados gerada, é necessário um
sistema de arquivos distribuídos HDFS (Hadoop).
Essas ferramentas de integração e tratamento de dados geram um ecossistema de aplicações
que pode ser usado para revelar informações a respeito de dados históricos e de fluxo de
informações em tempo real, ajudando a analisar eventos passados, a compreender atividades
atuais e a atuar de modo preditivo com relação ao futuro. O ecossistema Hadoop é utilizado por
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_748779… 10/15
04/11/2021 09:45 Roteiro de Estudos
grandes empresas, como Facebook, LinkedIn, Amazon e Twitter, e trabalha com uma
quantidade massiva de dados dentro de uma arquitetura Big Data.
O Apache Hadoop, por exemplo, “é um framework de código aberto para o processamento e
armazenamento de dados em larga escala, com cluster de máquinas organizadas em uma
máquina mestre e várias escravas [...], promovendo soluções em uma única plataforma”
(PEREIRA et al., 2019, p. 77). O framework Hadoop é composto de um conjunto de módulos
integrados de computação distribuída, desenvolvidos pela Apache Software Foundation. Alguns
desses principais módulos seriam:
Hadoop Distributed File System (HDFS): sistema de arquivos distribuídos do Hadoop que
oferece acesso aos dados da aplicação.
Hadoop Map Reduce: sistema baseado no Yarn para o processamento paralelo de grandes
conjuntos de dados.
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_748779… 11/15
04/11/2021 09:45 Roteiro de Estudos
NoSQL, de modo geral, é interpretado como Not only SQL e tem por objetivo levar a ideia de
que muitas aplicações necessitam de distintos sistemas que se diferem dos sistemas SQL
relacionais tradicionais, contemplando a ampliação das necessidades de gerenciamento dos
dados. A maior parte desses sistemas NoSQL se faz através de bancos de dados distribuídos
com prioridade no armazenamento dos dados semiestruturados, no alto desempenho, na
disponibilidade e na replicação dos dados e da escalabilidade.
O Spark Stream é um framework que agrupa streams de lotes em um intervalo de tempo
determinado, tratando a coleção de lotes com Resilient Distributed Datasets, sendo um
mecanismo que utiliza o DataStream (stream de dados) e o fragmenta em pequenos lotes
(microbats), processando-os (tratamento de dados) em tempo real por meio de operações de
filtragem, mineração de dados, junção, agregação, IA (Inteligência Artificial — aprendizagem de
máquina) e outras funções de processamento, para que os dados possam ser armazenados em
um banco de dados, onde possam ser visualizados e utilizados posteriormente. O Spark Stream
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_748779… 12/15
04/11/2021 09:45 Roteiro de Estudos
LEITURA
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_748779… 13/15
04/11/2021 09:45 Roteiro de Estudos
Conclusão
Neste roteiro, foi possível compreender que a coleta e a integração de dados correspondem a
um processo de ingestão de dados dentro de uma arquitetura Big Data ou Fast Data. Esse
processo situa-se dentro de um Pipeline de dados, em uma segunda camada, que tem como
objetivo a priorização e a categorização dos dados de centenas de fontes de fluxos, a qual, em
conjunto com o processo de coleta de dados, transfere os diversos dados, já classificados e
priorizados, para a camada de armazenamento (Data Storage Layer).
Compreendemos que a diferença entre ETL e a ingestão de dados, dentro de um projeto Data
Warehouse ou até mesmo em Big Data, está relacionada à frequência, às janelas de manutenção
de origem/destino e à origem das fontes de dados heterogêneos de formatos variados que
necessitam ser inseridos (extração e carregamento) diretamente no Big Data.
Entendemos o conceito de Big Data e Fast Data, suas características e a abordagem em um
processo de ingestão de dados, que define as formas de comunicação síncrona, assíncrona,
real-time e em lote. Em uma arquitetura Fast Data, é utilizada uma comunicação real-time,
devido às demandas de processamento Stream. Já em uma arquitetura Big Data, é utilizada uma
comunicação híbrida (real-time e em lote).
Finalmente, compreendemos o método Sharding de distribuição para o aumento da capacidade
de armazenamento e processamento de um conjunto de dados em uma arquitetura Big Data.
Além disso, explorarmos as tecnologias de tratamento de dados em ecossistema Hadoop
Apache e seus módulos para coleta, integração, armazenamento, processamento e visualização
dos dados.
Referências
BORDIN, M. V. et al. Trabalhando com Big Data em Tempo Real. In: ESCOLA REGIONAL DE ALTO
DESEMPENHO DO ESTADO DO RIO GRANDE DO SUL (ERAD), 16., 2016. Anais... São Leopoldo:
Sociedade Brasileira de Computação (SBC), 2016. Disponível em:
https://www.researchgate.net/publication/312891285_Trabalhando_com_Big_Data_em_Tempo_Real.
Acesso em: 28 set. 2021.
EQUIPE DSA. Fast Data – A Evolução Do Big Data. Data Science Academy, 02 jan. 2021.
Disponível em: https://blog.dsacademy.com.br/fast-data-a-evolucao-do-big-data/. Acesso em:
28 set. 2021.
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_748779… 14/15
04/11/2021 09:45 Roteiro de Estudos
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_748779… 15/15