Spark SQL pode usar tabelas do Hive sem precisar instalar o Hive. Tabelas no Spark SQL são objetos tabulares persistentes que podem ser gerenciados e consultados por SQL e são totalmente interoperáveis com DataFrames. Tabelas podem ser gerenciadas ou não gerenciadas.
Spark SQL pode usar tabelas do Hive sem precisar instalar o Hive. Tabelas no Spark SQL são objetos tabulares persistentes que podem ser gerenciados e consultados por SQL e são totalmente interoperáveis com DataFrames. Tabelas podem ser gerenciadas ou não gerenciadas.
Spark SQL pode usar tabelas do Hive sem precisar instalar o Hive. Tabelas no Spark SQL são objetos tabulares persistentes que podem ser gerenciados e consultados por SQL e são totalmente interoperáveis com DataFrames. Tabelas podem ser gerenciadas ou não gerenciadas.
Metastore do o Hive instalado Hive para usar o Spark Tabela • Persistente • Objeto Tabular que reside em um banco de dados • Pode ser gerenciado e consultado Tabela DataFrame utilizando SQL • Totalmente interoperável com DataFrame • Ex: Você pode transformar um DataFrame que importamos (Parquet, json, orc csv) em tabela Tabelas
Gerenciadas: Spark gerencia dados Não Gerenciadas (External): Spark
e metadados apenas gerencia metadados Armazenadas no warehouse do spark Informamos onde a tabela está (arquivo, por Se excluirmos, tudo é apagado (dados e exemplo orc) metadados) Se excluirmos, Spark só exclui os metadados, dados permanecem onde estavam • Mesmo conceito de banco de dados relacionais • São um “alias” para uma tabela (por exemplo, vendas_rs pode mostrar vendas do estado já com Views filtro aplicado) • Não contém dados Views