Você está na página 1de 5

Apache Spark X Apache Hadoop

**Ecossistema Hadoop
 processar grandes volumes de dados em batch - processamento em disco)

>>Apache Zookeeper: responsável pelo gerenciamento de serviços em aplicações


distribuídas.
>>Apache Oozie: sistema de gerenciamento de workflow usado para gerenciar
principalmente os Jobs de MapReduce.
>>Apache Hive: sistema para gestao e query de dados nao estrutursdos, em formato
estruturado - HQL (Hive Query Language)
>>Apache Sqoop: importar e exportar dados de bancos de dados relacionais - SQL to
Hadoop (coletar dados da fonte e gravar em HDFS)
>>Apache Pig: utilizado para analisar grandes conjuntos de dados que representam
fluxos de dados - Pig Latin / Runtime engine
>>Apache HBase: banco de dados NoSQL [para projetos com números reduzidos de
colunas, porém com grande quantidades de registros (linhas)
>>Apache Flume: serviço que permite enviar dados diretamente para o HDFS (coletar
dados da fonte e gravar em HDFS)
>>Apache Mahout: biblioteca open-source de algoritmos de aprendizado de máquina.
Dedicado ao Machine Learning
>>Apache Kafka: gerenciameno de fluxo de dados em tempo real (coleta dados de alto
volume, por exemplo: tuítes, mensagens, cliques; e disponibiliza para consumo em
tempo real)
**Apache Spark
 Primeira plataforma de Big Data a integrar batch, streaming e computação
interativa em um único framework.
 Bom para dados processados em memória, ou seja, para volumes não tão
gigantescos de dados.
 Engine de computação, responsável por agendar, distribuir e monitorar
aplicações de diversas tarefas de processamento através de diferentes
servidores em cluster.

>>Spark Core: componentes de agendamento de tarefas, gestão de memória,


recuperação de falha e sistemas de armazenamento.
>>Spark SQL: pacote para tarefas com dados estruturados. Queries através de
linguagem SQL, além de suportar diversas fontes de dados como Hive e JSON
>>Spark Streaming: componente para processamento de streams de dados em tempo
real. (twiter)
>>Spark MLib: biblioteca de Machine Learning do Spark
>>Spark Graphx: biblioteca para manipulação de grafos e computação em paralelo.
**Apache Storm
 Framework para Streaming de dados (fluxo contínuo de dados) e possui uma
alta taxa de ingestão de dados.

Você também pode gostar