RDD são estruturas de dados distribuídas e imutáveis que podem ser armazenadas em memória ou disco. DataFrames e DataSets são estruturas de dados semelhantes a tabelas de banco de dados e são compatíveis com objetos DataFrame do R e Python, tornando mais fácil o processamento e análise de dados. Embora RDDs sejam a estrutura de baixo nível no Spark, o foco será nos DataFrames por serem mais flexíveis e expressivos para manipulação e análise de dados.
RDD são estruturas de dados distribuídas e imutáveis que podem ser armazenadas em memória ou disco. DataFrames e DataSets são estruturas de dados semelhantes a tabelas de banco de dados e são compatíveis com objetos DataFrame do R e Python, tornando mais fácil o processamento e análise de dados. Embora RDDs sejam a estrutura de baixo nível no Spark, o foco será nos DataFrames por serem mais flexíveis e expressivos para manipulação e análise de dados.
RDD são estruturas de dados distribuídas e imutáveis que podem ser armazenadas em memória ou disco. DataFrames e DataSets são estruturas de dados semelhantes a tabelas de banco de dados e são compatíveis com objetos DataFrame do R e Python, tornando mais fácil o processamento e análise de dados. Embora RDDs sejam a estrutura de baixo nível no Spark, o foco será nos DataFrames por serem mais flexíveis e expressivos para manipulação e análise de dados.
RDD – Dados “imutáveis”, distribuídos pelo cluster
Resilient Em memória
Distributed Pode ser persistindo em disco
Datasets Tolerante a falha (RDD) Operações sobre um RDD criam um novo RDD RDD
Estrutura de baixo nível
Complexo e verboso
Otimização difícil pelo Spark
Transformações Ações map filter reduce flatMap collect mapPartitions mapPartitionsWithIndex count sample union first intersection take distinct Transformações groupByKey takeSample e Ações reduceByKey takeOrdered aggregateByKey sortByKey saveAsTextFile join cogroup saveAsSequenceFile cartesian saveAsObjectFile pipe coalesce countByKey repartition repartitionAndSortWithinPartitions foreach Dataset e DataFrame SEMELHANTE A UMA TABELA COMPATÍVEL COM OBJETOS DE BANCO DE DADOS DATAFRAME DO R E PYTHON Dataset • Disponíveis em Java e Scala • Não disponíveis em R e Python No curso • Vamos estudar RDD, porém: • Prioridade será o DataFrame