**Ecossistema Hadoop processar grandes volumes de dados em batch - processamento em disco)
>>Apache Zookeeper: responsável pelo gerenciamento de serviços em aplicações
distribuídas. >>Apache Oozie: sistema de gerenciamento de workflow usado para gerenciar principalmente os Jobs de MapReduce. >>Apache Hive: sistema para gestao e query de dados nao estrutursdos, em formato estruturado - HQL (Hive Query Language) >>Apache Sqoop: importar e exportar dados de bancos de dados relacionais - SQL to Hadoop (coletar dados da fonte e gravar em HDFS) >>Apache Pig: utilizado para analisar grandes conjuntos de dados que representam fluxos de dados - Pig Latin / Runtime engine >>Apache HBase: banco de dados NoSQL [para projetos com números reduzidos de colunas, porém com grande quantidades de registros (linhas) >>Apache Flume: serviço que permite enviar dados diretamente para o HDFS (coletar dados da fonte e gravar em HDFS) >>Apache Mahout: biblioteca open-source de algoritmos de aprendizado de máquina. Dedicado ao Machine Learning >>Apache Kafka: gerenciameno de fluxo de dados em tempo real (coleta dados de alto volume, por exemplo: tuítes, mensagens, cliques; e disponibiliza para consumo em tempo real) **Apache Spark Primeira plataforma de Big Data a integrar batch, streaming e computação interativa em um único framework. Bom para dados processados em memória, ou seja, para volumes não tão gigantescos de dados. Engine de computação, responsável por agendar, distribuir e monitorar aplicações de diversas tarefas de processamento através de diferentes servidores em cluster.
>>Spark Core: componentes de agendamento de tarefas, gestão de memória,
recuperação de falha e sistemas de armazenamento. >>Spark SQL: pacote para tarefas com dados estruturados. Queries através de linguagem SQL, além de suportar diversas fontes de dados como Hive e JSON >>Spark Streaming: componente para processamento de streams de dados em tempo real. (twiter) >>Spark MLib: biblioteca de Machine Learning do Spark >>Spark Graphx: biblioteca para manipulação de grafos e computação em paralelo. **Apache Storm Framework para Streaming de dados (fluxo contínuo de dados) e possui uma alta taxa de ingestão de dados.