Escolar Documentos
Profissional Documentos
Cultura Documentos
RESUMO
Este artigo explora o MapReduce e o Hadoop, duas tecnologias cruciais dentro do campo
da computação distribuída. O MapReduce é um modelo que simplifica o processamento
paralelo de grandes volumes de dados, dividindo-o em operações Map e Reduce. Por outro
lado, o Hadoop é um ecossistema que implementa esse modelo, fornecendo um ambiente
distribuído para executar algoritmos baseados em operações MapReduce. Este artigo
busca explicar de forma sucinta os conceitos essenciais, a relação entre ambos e suas
aplicações práticas na era do Big Data.
ABSTRACT
This article explores MapReduce and Hadoop, two crucial technologies within the field of
distributed computing. MapReduce is a model that simplifies the parallel processing of large
volumes of data by breaking it down into Map and Reduce operations. On the other hand,
Hadoop is an ecosystem that implements this model, providing a distributed environment to
execute algorithms based on MapReduce operations. This article aims to succinctly explain
the essential concepts, the relationship between the two, and their practical applications in
the era of Big Data.
1
Graduando do curso Tecnologia em Análise e Desenvolvimento de Sistemas pelo UniSenai. E-mail: geogab.dev@gmail.com
1. INTRODUÇÃO
A última etapa aplicada é o Reduce, este não pode ser executado enquanto uma
operação Map não for concluída. Os nós do cluster vão processar cada conjunto de dados
de saída “chave-valor” paralelamente e gerar novos dados pares “chave-valor” como saída.
Todos os dados de saída da função Map que contém a mesma chave são atribuídos a um
Reducer que aplica operações de agregação para essas chaves. A execução das funções
implementadas pelo desenvolvedor são as que definem a lógica do fluxo dos dados no
processo MapReduce. De acordo com a Figura 1, na fase Map o par “chave-valor” é a
entrada para a função de mapeamento (Mapper) que gera um novo par “chave-valor” para
a tarefa Reduce.
O Hadoop Mapreduce é uma peça essencial dentro de todo o framework, sendo que
este é inteiramente responsável pelo processamento de dados. O Hadoop, após
implementar o modelo de programação MapReduce, ganhou muita repercussão, tornando
o mesmo muito famoso dentro do universo da computação distribuída. Sendo uma excelente
solução para o processamento paralelo de dados, o desenvolvedor da aplicação não precisa
realizar nenhuma configuração extra para garantir que os dados serão processados
paralelamente entre os nós do cluster. Colocando a ferramenta como uma ótima escolha
para resolução de problemas que envolvem a análise de dados em grande escala.
Toda a eficácia obtida pelo Hadoop MapReduce pode ser aprovada verificando o
número de importantes empresas, dos mais variados ramos, que utilizam o Hadoop sejam
para fins educacionais ou de produção. Um dos maiores desenvolvedores e contribuintes
do projeto foi a empresa Yahoo!, no entanto, também tem sido utilizada por grandes
corporações (Goldman Alfredo, 2012).
Abaixo será apresentado com algumas das principais empresas que utilizam o
Hadoop em seus processos:
5. CONSIDERAÇÕES FINAIS
DEVMEDIA. Big Data: MapReduce na prática. Rio de Janeiro. 2015. Acesso em: 11 out. 2023.
Disponível em: https://www.devmedia.com.br/big-data-mapreduce-na-pratica/32812
DATABRICKS. MapReduce: O que é MapReduce. San Francisco. 2023. Acesso em: 13 out. 2023.
Disponível em: https://www.databricks.com/br/glossary/mapreduce
HADOOP. Apache Hadoop. EUA. 2023. Acesso em: 18 out. 2023. Disponível em: https://ha-
doop.apache.org/
DEVMEDIA. Hadoop Mapreduce: Introdução a Big Data. Rio de Janeiro. 2015. Acesso em: 18
out. 2023. Disponível em: https://www.devmedia.com.br/hadoop-mapreduce-introducao-a-big-
data/30034
GOLDMAN. Alfredo. Apache Hadoop: conceitos teóricos e práticos, evolução e novas possi-
bilidades. Brasil: 2012.