Bem-vindo(a) ao Scribd!

1 SparkSQL

Enviado por

0% acharam este documento útil (0 voto)

9 visualizações6 páginas

Spark SQL pode usar tabelas do Hive sem precisar instalar o Hive. Tabelas no Spark SQL são objetos tabulares persistentes que podem ser gerenciados e consultados por SQL e são totalmente interoperáveis com DataFrames. Tabelas podem ser gerenciadas ou não gerenciadas.

Descrição original:

Título original

1.SparkSQL

Direitos autorais

Formatos disponíveis

PDF, TXT ou leia online no Scribd

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Denunciar este documento

Direitos autorais:

Formatos disponíveis

Baixe no formato PDF, TXT ou leia online no Scribd

Sinalizar o conteúdo como inadequado

0% acharam este documento útil (0 voto)

9 visualizações6 páginas

1 SparkSQL

Enviado por

klinsmann oliveira

Direitos autorais:

Formatos disponíveis

Baixe no formato PDF, TXT ou leia online no Scribd

Sinalizar o conteúdo como inadequado

Pular para a página

Você está na página 1de 6

Pesquisar no documento

Spark SQL

Spark

Utiliza o Não é preciso ter

Metastore do o Hive instalado
Hive para usar o Spark
Tabela
• Persistente
• Objeto Tabular que reside em um banco
de dados
• Pode ser gerenciado e consultado Tabela DataFrame
utilizando SQL
• Totalmente interoperável com DataFrame
• Ex: Você pode transformar um DataFrame
que importamos (Parquet, json, orc csv)
em tabela
Tabelas

Gerenciadas: Spark gerencia dados Não Gerenciadas (External): Spark

e metadados apenas gerencia metadados
Armazenadas no warehouse do spark Informamos onde a tabela está (arquivo, por
Se excluirmos, tudo é apagado (dados e exemplo orc)
metadados) Se excluirmos, Spark só exclui os metadados,
dados permanecem onde estavam
• Mesmo conceito de banco de dados relacionais
• São um “alias” para uma tabela (por exemplo,
vendas_rs pode mostrar vendas do estado já com
Views filtro aplicado)
• Não contém dados
Views