Bem-vindo(a) ao Scribd!

2 DataFrame

Enviado por

0% acharam este documento útil (0 voto)

13 visualizações5 páginas

Dataframes são tabelas imutáveis com linhas, colunas e esquema conhecido que permitem análises como agrupamento, ordenação e filtragem de forma otimizada através de planos de execução, sendo o processamento das transformações feito apenas quando há uma ação devido à avaliação preguiçosa. Os tipos de dados suportados incluem números, strings, datas e estruturas complexas.

Descrição original:

Título original

2.DataFrame

Direitos autorais

Formatos disponíveis

PDF, TXT ou leia online no Scribd

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Denunciar este documento

Direitos autorais:

Formatos disponíveis

Baixe no formato PDF, TXT ou leia online no Scribd

Sinalizar o conteúdo como inadequado

0% acharam este documento útil (0 voto)

13 visualizações5 páginas

2 DataFrame

Enviado por

klinsmann oliveira

Direitos autorais:

Formatos disponíveis

Baixe no formato PDF, TXT ou leia online no Scribd

Sinalizar o conteúdo como inadequado

Pular para a página

Você está na página 1de 5

Pesquisar no documento

Data Frames

Dataframe
• Tabelas com linhas e colunas
• Imutáveis
• Com schema conhecido
• Linhagem preservada
• Colunas podem ter tipos diferentes
• Existem análises comuns: Agrupar, ordenar, filtrar
• Spark pode otimizar estas analises através de planos de execução
Lazy Evaluation
• O processamento de transformação de fato só ocorre quando há uma Ação: Lazy
Evaluation
Tipo
ByteType
ShortType
IntegerType
LongType
FloatType
DoubleType
DecimalType
StringType

Tipos de Dados BinaryType

BooleanType
TimestampType
DateType
ArrayType
MapType
StructType
StructField
• Você pode deixar para o Spark inferir a partir de
parte dos dados ou
• Você pode definir o schema
Schema • Definir tem vantagens:
• Tipo correto
• Sem overhead