Você está na página 1de 7

RDD, DataFrame e

DataSet
Estrutura básica de baixo nível

RDD – Dados “imutáveis”, distribuídos pelo cluster

Resilient Em memória

Distributed Pode ser persistindo em disco


Datasets
Tolerante a falha
(RDD)
Operações sobre um RDD criam um novo RDD
RDD

Estrutura de baixo nível

Complexo e verboso

Otimização difícil pelo Spark


Transformações Ações
map
filter reduce
flatMap
collect
mapPartitions
mapPartitionsWithIndex count
sample
union first
intersection
take
distinct
Transformações groupByKey takeSample
e Ações reduceByKey
takeOrdered
aggregateByKey
sortByKey saveAsTextFile
join
cogroup saveAsSequenceFile
cartesian
saveAsObjectFile
pipe
coalesce countByKey
repartition
repartitionAndSortWithinPartitions
foreach
Dataset e
DataFrame
SEMELHANTE A UMA TABELA COMPATÍVEL COM OBJETOS
DE BANCO DE DADOS DATAFRAME DO R E PYTHON
Dataset
• Disponíveis em Java e Scala
• Não disponíveis em R e Python
No curso
• Vamos estudar RDD, porém:
• Prioridade será o DataFrame

Você também pode gostar