Escolar Documentos
Profissional Documentos
Cultura Documentos
Cathy Tanimura
Novatec
Authorized Portuguese translation of the English edition of SQL for Data Analysis ISBN 9781492088783
© 2021 Cathi Tanimura. This translation is published and sold by permission of O'Reilly Media,
Inc., the owner of all rights to publish and sell the same.
Tradução em português autorizada da edição em inglês da obra SQL for Data Analysis ISBN
9781492088783 © 2021 Cathi Tanimura. Esta tradução é publicada e vendida com a permissão da
O'Reilly Media, Inc., detentora de todos os direitos para publicação e venda desta obra.
© Novatec Editora Ltda. [2022].
Editor: Rubens Prates GRA20220712
Tradução: Aldir Coelho Corrêa da Silva
Revisão gramatical: Tássia Carvalho
ISBN do impresso: 978-65-86057-75-1
ISBN do ebook: 978-65-86057-92-8
Histórico de impressões:
Julho/2022 Primeira edição
Novatec Editora Ltda.
Rua Luís Antônio dos Santos 110
02460-000 – São Paulo, SP – Brasil
Tel.: +55 11 2959-6529
Email: novatec@novatec.com.br
Site: https://novatec.com.br
Twitter: twitter.com/novateceditora
Facebook: facebook.com/novatec
LinkedIn: linkedin.com/in/novatec
GRA20220712
Sumário
Prefácio......................................................................................................................................7
Capítulo 1 ■ Análise com SQL..................................................................................................... 11
O que é análise de dados?..................................................................................................11
Por que SQL?.................................................................................................................... 14
O que é SQL?.............................................................................................................. 14
Benefícios do SQL.......................................................................................................17
SQL versus R ou Python..............................................................................................19
SQL como parte do fluxo de trabalho de análise de dados.............................................21
Tipos de bancos de dados e como trabalhar com eles.........................................................23
Bancos de dados row-store...........................................................................................25
Bancos de dados column-store.....................................................................................27
Outros tipos de infraestrutura de dados.......................................................................28
Conclusão........................................................................................................................30
Capítulo 2 ■ Preparando os dados para análise...........................................................................32
Tipos de dados..................................................................................................................33
Tipos de dados de banco de dados...............................................................................33
Estruturados versus não estruturados...........................................................................35
Dados quantitativos versus qualitativos........................................................................36
Dados primários, secundários e de terceiros.................................................................37
Dados esparsos............................................................................................................38
Estrutura da consulta SQL................................................................................................39
Criação de perfis: distribuições.........................................................................................42
Histogramas e frequências...........................................................................................43
Discretização (Binning)...............................................................................................46
Funções n-tiles............................................................................................................49
Criação de perfis: qualidade dos dados..............................................................................51
Detectando duplicidades..............................................................................................52
Desduplicação com GROUP BY e DISTINCT..............................................................54
Preparação: limpeza dos dados..........................................................................................55
Limpando dados com transformações CASE................................................................56
Conversões de tipos e casting.......................................................................................59
Lidando com nulos: funções coalesce, nullif, nvl..........................................................62
Dados ausentes............................................................................................................65
3
4 SQL para Análise de Dados