2.introdução Ao Spark

Introdução ao Spark
• Ferramenta de Processamento de Dados (Não é Data

Storage)
• Distribuído em um Cluster
• Em memória
• Veloz
O Que é Spark • Escalável
• Dados em HDFS ou Cloud
• Particionamento
• Rede de Computadores • Rede de Computadores -
Cluster Cluster
E-mail Proc. Dados

Storage Proc. Dados
ERP Proc. Dados
Replicação e • Dados são copiados entre os nós do cluster. Isso traz o
benefício de, entre outras coisas, tolerância a falhas
Tolerância a Falha
Particionamento
Executer Executer Executer
Jan Fev Mar

Spark VS
Python, R ou • Você precisa Processar dados!
• Custo computacional: CPU, Memória, Rede etc.
Banco de • Spark tem arquitetura voltada a processar dados!
Dados • Melhor performance, porém:
• Não substitui Python
• Não substitui SQL ou um SGBDR
Scala
Python
Linguagens Java
R
SQL
• + 1000 colaboradores ativos
Projeto “Extremamente” Ativo

• Google File System (GFS), MapReduce (MR) e Bigtable
• Resultou em Hadoop, MapReduce, HDFS e Yarn

• Complexo
• Requer conhecimento em Java
História • Modelo em Batch em tarefas Mapeamento e Redução
• Solução
• Ex: Hive criado pelo Facebook: DW SQL sobre HDFS
Universidade da
Califórnia iniciou
projeto Spark em 2009
Spark
Versão 1.0 lançada em
Maio de 2014 pela
Fundação Apache

2.introdução Ao Spark

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

2.introdução Ao Spark

Enviado por

Direitos autorais:

Formatos disponíveis

Introdução ao Spark

• Ferramenta de Processamento de Dados (Não é Data

E-mail Proc. Dados

Executer Executer Executer

Jan Fev Mar

Projeto “Extremamente” Ativo

• Resultou em Hadoop, MapReduce, HDFS e Yarn

Você também pode gostar