Você está na página 1de 4

UNIVERSIDADE ESTÁCIO DE SÁ

MBA EM CIÊNCIA DE DADOS E BIG DATA ANALYTICS

Resenha Crítica de Caso


William

Trabalho da disciplina: Ecosistema Hadoop


Tutor: Prof. Regina Lucia

Rio de Janeiro
2021

2
HELLO HADOOP WORLD — PRIMEIROS PASSOS COM HADOOP E
MAPREDUCE

Referência:
DA SILVA, Marku Vinicius. Hello Hadoop World — Primeiros passos com
Hadoop e MapReduce. Harvard Business School, Novembro 2017.
Disponível em: https://medium.com/@markuvinicius/hello-hadoop-world-
primeiros-passos-com-hadoop-e-mapreduce-9b368dd7eeb7.
Acessado em: 18/01/2021

https://www.cetax.com.br/blog/apache-hadoop/

https://computerworld.com.br/inovacao/hadoop-ou-spark-veja-qual-se-aplica-melhor-para-
sua-empresa/

Introdução
O presente trabalho representa uma resenha crítica sobre o paper “Hello Hadoop World —
Primeiros passos com Hadoop e MapReduce” do autor Marku Vinicius da Silva. O paper tem
como objetivo destacar a importância do Ecossitema Hadoop nas organizações. Como
exemplo de aplicação, Marku constrói um programa em Java chamado MovieLens e ainda
aborda quais os problemas e as soluções adotadas pelas empresas.
Marku descreve como o programa MapReduce processa o famoso dataset: MovieLens, além
do passo a passo do processo.

Desenvolvimento
O autor do paper cita muito bem como é complicado trabalhar com grandes bancos/volumes
de dados e como o Hadoop veio para resolver o armazenamento massivo de informações e um
processamento mais distribuído.

2
Diante dessa dificuldade de manipulação de dados, surge o Hadoop.

Conforme citado pelo Marku “Hadoop é uma plataforma de software open-source para
computação distribuída, escalável e tolerante a falhas desenvolvido e mantido pela Apache
Software Foundation.”. Por ser um software open-source, ele pode ser compartilhado pela
rede pelos desenvolvedores, permitindo acesso sem restrições a qualquer pessoa. Ele trabalha
com clusters de computadores utilizando linguagens simples.

Trabalhar com grande massa de dados em um banco de dados tradicional hoje em dia é muito
difícil, além de perder muito em performance. Diante deste cenário, foi criado um software
com alto processamento de dados chamado Hadoop, software este com excelente
processamento de dados, armazenamento, governança, acesso, segurança e operações para
grandes e complexos volumes de dados.

O Hadoop é uma solução adequada para Big Data por diversos motivos:
1 - É um software open-source, como já citado, fato este que permite a sua modificação para
fins de customização e o torna suscetível a melhorias constantes graças à sua rede de
desenvolvedores;
2 – Escalabilidade e Desempenho: Distribuição do tratamento dos dados para cada nó do
cluster;
3 – Confiabilidade. Quando um nó falha ele é redirecionado para outro cluster, desta forma,
não a perda;
4 – Baixo Custo já que é um software open-source;
5 – Flexibilidade. Pode-se armazenar dados em qualquer formato, incluindo tipos de dados
semiestruturados ou não estruturados, por exemplo.

O Hadoop por ser um software open-source, aceita qualquer tipo de linguagem: Java, Scala,
Ruby, Python, R, etc.

2
O MapReduce foi projetado para trabalhar com computação paralela e para transformar os
dados em pedaçõs menores. Ele trabalha com mapeamento dos dados e com a redução dos
dados, por exemplo:
1 - No mapeamento dos dados, eles são distribuídos e divididos em fragmentos, onde esses
fragmentos serão enviados para o processo de redução, depois de passarem pelos clusters
(grupo de nodes interligados).
2 – Na redução dos dados, ele simplesmente fragmenta os dados e produz uma saída, onde é
gravado no file system.

Conclusão
O artigo proposto pelo Marku foi bem claro em descrever o processamento e benefícios do
Haddop.
Todavia não foram destacados os problemas que podem ser encontrados no decorrer do
processamento e nem como corrigi-los. Foi apresentado uma simples programação em Java e
não foi destacado a complexidade da linguagem, assim como tempo necessário para sua
execução. Entretanto deu para perceber que o Hadoop é uma excelente ferramenta para lidar
com grandes volumes de dados, além de ser dinâmica e open-source

O autor poderia ter citado o Spark, que também é um software open-source e mais rápido do
que o Hadoop, pois faz tudo em memória, diferentemente do Hadoop MapReduce que precisa
ler e gravar em um disco rígido.