O documento discute formatos de armazenamento de dados para Big Data, comparando armazéns de dados clássicos e modernos. Os formatos modernos tendem a ser abertos, desacoplados de ferramentas e binários/compactados. Exemplos de formatos para Big Data incluem Parquet, ORC e Avro, cada um com suas próprias vantagens para escrita ou leitura de dados. O documento recomenda testes de desempenho para escolher o melhor formato em cada caso.
O documento discute formatos de armazenamento de dados para Big Data, comparando armazéns de dados clássicos e modernos. Os formatos modernos tendem a ser abertos, desacoplados de ferramentas e binários/compactados. Exemplos de formatos para Big Data incluem Parquet, ORC e Avro, cada um com suas próprias vantagens para escrita ou leitura de dados. O documento recomenda testes de desempenho para escolher o melhor formato em cada caso.
O documento discute formatos de armazenamento de dados para Big Data, comparando armazéns de dados clássicos e modernos. Os formatos modernos tendem a ser abertos, desacoplados de ferramentas e binários/compactados. Exemplos de formatos para Big Data incluem Parquet, ORC e Avro, cada um com suas próprias vantagens para escrita ou leitura de dados. O documento recomenda testes de desempenho para escolher o melhor formato em cada caso.
Formatos Proprietários Armazéns de Dados Modernos Formatos Abertos Formatos para Big Data • Armazéns de dados modernos tendem a armazenar dados em formatos “desacoplados” de ferramentas e abertos • Formatos binários, compactados Formatos para • Suportam Schema Big Data • Podem ser particionados entre discos: • Redundância • Paralelismo • Parquet – Colunar, padrão do Spark • ORC – Colunar, padrão do Hive • Avro – Linha Formatos • Muito atributos e mais escrita – linha • Menos atributos e mais leitura, coluna • Em geral ORC é mais eficiente na criação (escrita) e na compressão • Parquet tem melhor performance Qual escolher? na consulta (leitura)