Semana 3

Semana 3
Tudo sobre bancos de dados

Olá de novo. Até agora, como os dados podem ser coletados e analisados para
resolver todos os tipos de problemas. Agora, vamos aprender tudo sobre bancos
de dados como uma atualização.
Um banco de dados é uma coleção de dados armazenados em um sistema de
computador, mas armazenamento é apenas o começo. Você descobrirá como
os bancos de dados possibilitam encontrar o pedaço exato de informação que
você precisa para sua análise. Você também aprenderá como classificar os
dados para ampliar o que você precisa para gerar relatórios detalhados e muito
mais. Depois iremos nos aprofundar ainda mais, e é sério, muito, muito
profundo. Estou falando sobre metadados. Você provavelmente já ouviu alguém
dizer, uau, isso é tão meta. Normalmente eles estão falando de algo
referenciando-se a si mesmo ou sendo completamente consciente de si
mesmo. Por exemplo, se um personagem de um livro sabe que ela está em um
livro, isso é meta. Se você fizer um documentário sobre como fazer
documentários, isso também é meta. E aqui no Google, a forma como eu analiso
dados está sempre sob minha avaliação. Isso é definitivamente meta.
Faço isso como verificação da qualidade do trabalho para garantir que meus
métodos são justos. E para ter certeza de que estou prestando atenção a
qualquer parcialidade que possa interferir no resultado. Como analista, você
deve fazer isso também. Às vezes ficamos muito próximos de nossos
dados. Então, afastar-se e perguntar a nós mesmos se nossos processos fazem
sentido é fundamental. Mas vamos voltar um pouco e definir o que é
metadados. Metadados são dados sobre dados. Como eu disse: profundo.
Os metadados são extremamente importantes quando se trabalha com bancos

de dados. Pense nisso como um guia de referência. Sem o guia tudo o que você
tem é um monte de dados sem contexto que explique o que significa. Os
metadados dizem a você de onde vêm os dados, de quando e como foram
criados. Isso são os metadados.
A seguir, você aprenderá como obter dados de um banco de dados ou de outra

fonte e inseri-los em uma planilha. Você fará isso por importação direta
ou usando SQL para gerar uma requisição. E uma vez que você tenha dados em
uma planilha, as possibilidades são infinitas. Tudo o que estamos prestes a ver
é uma parte importante da fase de preparação do processo de análise de
dados. É como os analistas de dados descobrem que tipo de dados serão os
mais úteis para eles. Se você tiver os dados corretos, é muito mais provável que
você seja capaz de resolver com sucesso os problemas em seu negócio. Então,
pronto para conhecer o incrível poder dos bancos de dados? Vamos lá!
Recursos de banco de dados
Os bancos de dados são ferramentas essenciais para os analistas de dados. Eu

os uso constantemente. Praticamente todos os dados que eu acesso estão
armazenados em bancos de dados. Os bancos de dados armazenam e
organizam os dados, tornando-os muito mais fáceis para analistas de dados para
gerenciarem e acessarem informações. Eles nos ajudam a obter insight mais
rapidamente, tomam decisões orientadas por dados e resolvem
problemas. Você já ouviu um pouco sobre o que são banco de dados e como
eles são usados pelos analistas de dados. Agora vamos aprender mais sobre
características e componentes do banco de dados. Aqui está uma estrutura
simples de banco de dados. Ele contém tabelas com informações de um
fabricante de automóveis. O alto nível inclui concessionárias de automóveis,
detalhes do produto, e peças de reparo. Então, se você detalhar até o próximo
nível selecionando uma dessas tabelas, você vai encontrar detalhes mais
específicos sobre cada item. Isso é chamado de banco de dados relacional. Um
banco de dados relacional é um banco de dados que contém uma série de
tabelas relacionadas que podem ser conectados através de seus
relacionamentos. Para que duas tabelas tenham um relacionamento, um
ou mais dos mesmos campos devem existir dentro de ambas as tabelas. Por
exemplo, aqui, a identificação da filial existe nessas duas tabelas aqui. Se existe
um campo em ambas as tabelas, nós podemos usá-los para conectar as
tabelas. O campo de identificação da filial é a chave para conectar estas
tabelas. Há dois tipos de chaves. Uma chave primária é um identificador que faz
referência a uma coluna na qual cada valor é único. Você pode pensar nisso
como um identificador para cada linha em uma tabela. Para nossa tabela de
concessionárias com informações sobre os diferentes ramos de
concessionárias, a identificação da filial é a chave primária. Da mesma forma,
para a tabela de detalhes do produto sobre cada carro, o VIN é nossa chave
primária. Como analista, você pode precisar criar tabelas. Se você decidir incluir
uma chave primária, ela deve ser única, o que significa que não há duas linhas
que possam ter a mesma chave primária. Além disso, não pode ser nulo ou em
branco. Há também chaves estrangeiras. Uma chave estrangeira é um campo
dentro de uma tabela que é uma chave primária em outra tabela. Em outras
palavras, uma chave estrangeira é como uma tabela pode ser conectada a
outra. Porque nossa tabela de peças de reparo contém informações sobre cada
parte do carro, a chave primária é a identificação da peça. Cada linha em nossa
tabela de peças de reparo representa uma parte única. Todas as outras chaves
desta tabela, tais como o VIN, são as chaves estrangeiras que permitem a tabela
de peças de reparo ser conectada às outras tabelas. Como você pode ver, uma
tabela só pode ter uma chave primária, mas pode ter múltiplas chaves
estrangeiras. Compreender as chaves primárias e estrangeiras pode ser
complicado, por isso você terá mais oportunidades para praticar logo em breve.
Mas como um resumo geral, uma chave primária é usada para garantir que os
dados em uma coluna específica sejam únicos. Identificam de forma única um
registro em uma tabela de banco de dados relacional. Apenas uma chave
primária é permitida em uma tabela e elas não podem conter valores nulos ou
em branco. E uma chave estrangeira é uma coluna ou grupo de colunas em uma
tabela de banco de dados relacional que fornece uma ligação entre os dados e
duas tabelas. Refere-se ao campo em uma tabela que é a chave primária em
outra. Finalmente, é importante notar que é permitida a existência de mais de
uma chave estrangeira em uma tabela. Sinta-se à vontade para assistir
novamente a este vídeo para certificar-se de que você entendeu
claramente sobre as chaves primárias e estrangeiras. E em seguida, você irá
praticar como acessar e analisar dados de bancos de dados reais. Essa será
uma grande oportunidade para melhorar sua compreensão das chaves primárias
e estrangeiras, organização de banco de dados e como você pode usar bancos
de dados em sua futura carreira de analista.
Bancos de dados em análise de dados

Os bancos de dados permitem aos analistas manipular, armazenar e processar
dados. Isso ajuda a pesquisar os dados com muito mais eficiência para obter as
melhores ideias.
Banco de dados relacional
Um banco de dados relacional é um banco de dados que contém uma série de

tabelas que podem ser conectadas para mostrar as relações. Eles permitem,
basicamente, que os analistas de dados organizem e liguem os dados com base
no que os dados têm em comum.
Em uma tabela não-relacional, você encontrará todas as variáveis possíveis que

você possa estar interessado em analisar todas agrupadas. Isso pode dificultar
a classificação. Essa é uma razão pela qual os bancos de dados relacionais são
tão comuns na análise de dados: eles simplificam muitos processos de análise
e tornam os dados mais fáceis de encontrar e usar em todo um banco de dados.
A chave para os banco de dados relacionais

As tabelas em um banco de dados relacional estão conectadas pelos campos
que elas têm em comum. Você deve se lembrar de ter aprendido sobre chaves
primárias e estrangeiras antes. Como uma rápida atualização, uma chave
primária é um identificador que faz referência a uma coluna na qual cada valor
é único. Em outras palavras, é uma coluna de uma tabela que é usada para
identificar de forma única cada registro dentro daquela tabela. O valor atribuído
à chave primária em uma determinada linha deve ser único dentro de toda a
tabela. Por exemplo, se o customer_id for a chave primária para a tabela do
cliente, não existirá dois clientes com o mesmo client_id.
Em contraste, uma chave estrangeira é um campo dentro de uma tabela que é

uma chave primária em outra tabela. Uma tabela pode ter apenas uma chave
primária, mas pode ter várias chaves estrangeiras. Estas chaves são o que cria
as relações entre as tabelas em um banco de dados relacional, o que ajuda a
organizar e conectar dados em várias tabelas do banco de dados.
Algumas tabelas não exigem uma chave primária. Por exemplo, uma tabela de
receitas pode ter várias chaves estrangeiras e não ter uma chave primária. Uma
chave primária também pode ser construída usando múltiplas colunas de uma
tabela. Este tipo de chave primária é chamada de chave composta. Por
exemplo, se customer_id e location_id são duas colunas de uma chave
composta para uma tabela de clientes, os valores atribuídos a esses campos em
qualquer linha determinada devem ser únicos dentro de toda a tabela.
SQL? Você está falando minha língua
Os bancos de dados utilizam uma linguagem especial para se comunicar,

chamada linguagem de consulta. Linguagem de Consulta Estruturada (SQL)
é um tipo de linguagem de consulta que permite aos analistas de dados se
comunicarem com um banco de dados. Assim, um analista de dados usará SQL
para criar uma consulta para visualizar os dados específicos que eles desejam
de dentro do conjunto maior. Em um banco de dados relacional, os analistas de
dados podem escrever consultas para obter dados das tabelas relacionadas.
SQL é uma ferramenta poderosa para trabalhar com bancos de dados - e é por
isso que você vai aprender mais!
Inspecionando um conjunto de dados: Um tour prático

guiado
Como analista de dados, você usará os dados para responder perguntas e
resolver problemas. Quando você analisa dados e tirar conclusões, você está
gerando insights que podem influenciar as decisões comerciais, impulsionar
mudanças positivas e ajudar suas partes interessadas a atingir seus objetivos.
Antes de iniciar uma análise, é importante inspecionar seus dados para

determinar se eles contêm as informações específicas que você precisa para
responder às perguntas de suas partes interessadas. Em qualquer dado
conjunto de dados, pode ser o caso que:
• Os dados não estão lá (você tem dados de sanduíche, mas precisa de

dados de pizza)
• Os dados são insuficientes (você tem dados de pizza para 1-7 de junho,
mas precisa de dados para o mês inteiro de junho)
• Os dados estão incorretos (seus dados de pizza listam o custo de uma
fatia como $250, o que o faz questionar a validade do conjunto de dados)
A inspeção de seu conjunto de dados o ajudará a identificar quais perguntas são
respondidas e quais dados ainda estão faltando. Você pode ser capaz de
recuperar esses dados de uma fonte externa ou pelo menos recomendar às
partes interessadas que outra fonte de dados seja utilizada. Nesta leitura,
imagine que você seja um analista de dados inspecionando dados de planilhas
para determinar se é possível responder às perguntas de suas partes
interessadas.
Cenário:
Você é um analista de dados que trabalha para uma empresa de sorvetes. A

administração está interessada em melhorar as vendas de sorvetes da empresa.
A empresa tem coletado dados sobre suas vendas - mas não muito. Os dados
disponíveis são de uma fonte de dados interna e se baseiam nas vendas para
2019. Foi solicitado que você revisse os dados e fornecesse algumas
informações sobre as vendas de sorvetes da empresa. De preferência, a
administração gostaria de respostas para as seguintes perguntas:
1. Qual é o sabor mais popular de sorvete?

2. Como a temperatura afeta as vendas?
3. Como os fins de semana e feriados afetam as vendas?
4. Qual é a diferença entre rentabilidade para clientes novos e clientes que
retornam?
Inspecione os dados
Pergunta 1: Qual é o sabor mais popular de sorvete?

Para descobrir o sabor mais popular, é preciso primeiro definir o que se entende
por "popular". O sabor mais popular é aquele que gerou mais receitas em 2019?
Ou é o sabor que teve o maior número de unidades vendidas em 2019? Às vezes
suas escolhas de medição são limitadas pelos dados que você tem - você pode
rever sua planilha para descobrir se qualquer uma destas definições de "popular"
faz sentido com base nos dados disponíveis.
Clique na guia sabores em sua planilha para visualizar os dados relevantes. A

planilha de sabores tem três colunas e 209 linhas de dados. Os cabeçalhos das
colunas são semana, unidades vendidas e sabor. Este conjunto de dados não
veio com uma descrição dos dados, então você tem que descobrir o significado
das colunas por conta própria. Com base nos dados, você deduz que estas
colunas fornecem informações sobre o número de unidades vendidas para cada
sabor de sorvete, por semana, em 2019
Neste caso, você pode descobrir qual é o sabor mais popular usando unidades
vendidas como sua medida. Em particular, pode-se usar a coluna de unidades
vendidas para calcular o número total de unidades vendidas durante o ano para
cada sabor. Infelizmente, o conjunto de dados não fornece a quantidade de
vendas anuais por sabor. Neste caso, seu próximo passo seria perguntar a suas
parte interessadas se os dados das vendas anuais por sabor estão disponíveis
em outra fonte. Caso contrário, você pode acrescentar uma declaração sobre as
limitações dos dados atuais à sua análise.
Pergunta 2: Como a temperatura afeta as vendas?

Para explorar sua segunda pergunta, clique na aba temperaturas e confira os
dados. A planilha de temperaturas tem duas colunas e 366 linhas de dados. Os
cabeçalhos das colunas são temperatura e vendas. Os dados podem mostrar
o total de vendas por temperatura em 2019 (por exemplo, a primeira entrada
pode somar $36,69 em vendas por três dias separados que cada um teve uma
alta de 60 graus). Ou, os dados podem mostrar um instantâneo das vendas e
temperatura para cada dia em 2019 (por exemplo, a primeira entrada pode se
referir a um único dia com uma alta de 60 graus e $39,69 em vendas).
Então, o que é isso? É provavelmente um retrato diário porque há 365 entradas
para temperatura, e várias linhas com a mesma temperatura e valores de vendas
diferentes. Isso implica que cada entrada é para um único dia e não um resumo
de vários dias. Entretanto, sem mais informações, você não pode ter certeza.
Além disso, você não sabe se os dados atuais estão listados em ordem
consecutiva por data ou em uma ordem diferente. Seu próximo passo seria entrar
em contato com o proprietário do conjunto de dados para esclarecimentos.
Se for verificado que a temperatura afeta as vendas, você será capaz de oferecer
a suas parte interessadas uma visão como a que se segue: "Quando as máximas
diárias estão acima de X graus, a média de vendas de sorvete aumenta em Y.
Portanto, a empresa deve planejar o aumento do estoque durante esses tempos
para maximizar as vendas".
Pergunta 3: Como os fins de semana e feriados afetam as vendas?

A seguir, clique na guia de vendas para visualizar os dados sobre as datas de
venda. A planilha de vendas tem duas colunas e 366 linhas de dados. Os
cabeçalhos das colunas são data e vendas. Esses dados são, muito
provavelmente, o total de vendas diárias em 2019, já que as vendas são
registradas para cada data em 2019.
Você pode usá-los para determinar se uma data específica cai em um fim de
semana ou feriado e adicionar uma coluna à sua planilha que reflita estas
informações. Assim, você pode descobrir se as vendas nos fins de semana e
feriados são maiores do que as vendas em outros dias. Isto será útil para saber
para fins de planejamento de inventário e marketing.
Pergunta 4: Como a rentabilidade difere para novos clientes em relação aos

clientes que retornam?
Seu conjunto de dados não contém dados de vendas relacionados a novos

clientes. Sem estes dados, você não será capaz de responder a pergunta final.
Entretanto, pode acontecer que a empresa colete dados de clientes e os
armazene em uma tabela de dados diferente.
Se assim for, seu próximo passo seria descobrir como acessar os dados dos
clientes da empresa. Você pode então juntar os dados de receita de vendas à
tabela de dados do cliente para categorizar cada venda como de um cliente novo
ou retornando e analisar a diferença de lucratividade entre os dois conjuntos de
clientes. Estas informações ajudarão suas partes interessadas a desenvolverem
campanhas de marketing para tipos específicos de clientes a fim de aumentar a
fidelidade à marca e a rentabilidade geral.
Conclusão
Ao trabalhar em projetos analíticos, você nem sempre terá à sua disposição

todos os dados necessários ou relevantes. Em muitos desses casos, você pode
recorrer a outras fontes de dados para preencher as lacunas.
Apesar das limitações de seu conjunto de dados, ainda é possível oferecer às

suas partes interessadas algumas ideias valiosas. Para os próximos passos, seu
melhor plano de ação será tomar a iniciativa de fazer perguntas, identificar outros
conjuntos de dados relevantes, ou fazer alguma pesquisa por conta própria. Não
importa com que dados você esteja trabalhando, inspecionar cuidadosamente
seus dados causa um grande impacto na qualidade geral de sua análise.
Explorando metadados
Agora que você entende as diferentes formas de organizar os dados em um banco

de dados, vamos falar sobre como você pode descrever esses dados. Neste
vídeo, vamos começar explorando metadados, que é um aspecto muito
importante de gerenciamento de banco de dados. Metadados é um conceito
abstrato, no entanto. Vamos dar o pontapé inicial com um exemplo simples e do
cotidiano. Você sabia que todas as vezes que uma foto é tirada com um
smartphone, os dados são coletados automaticamente e armazenados dentro
dessa foto? Dê uma olhada. Escolha qualquer foto em seu computador. Aqui está
uma foto engraçada dos cães dos meus amigos, Rudy e Matilde. Em sua foto,
clique com o botão direito do mouse em "Obter Informações" ou "Propriedades".
Serão exibidos os metadados da foto, que podem lhe dizer qual o tipo de arquivo
que é; a data e a hora em que foi tirada; a geolocalização, ou onde foi tirada; que
tipo de dispositivo foi usado para tirar a foto; e muito mais. Surpreendente, não é?
Vamos a um outro exemplo. Toda vez que você envia ou recebe um e-mail, os
metadados são enviados juntamente com aquela mensagem. Você pode
encontrá-los clicando em "Mostrar Original" ou "Ver Detalhes da mensagem".
Os metadados de uma mensagem de e-mail incluem o tema, remetente,

destinatário, a data e hora em que foi enviada. Os metadados até sabem quão
rápida foi entregue após o remetente pressionar, "Enviar". Os metadados são
informações que são usadas para descrever os dados que estão contidos em algo,
como uma foto ou um e-mail. Tenha em mente que os metadados não são os
dados em si. Em vez disso, são dados sobre os dados. Em análise de dados,
metadados ajudam os analistas de dados a interpretar o conteúdo dos dados
dentro de um banco de dados. É por isso que os metadados são tão importantes
quando se trabalha com bancos de dados. Eles dizem a um analista tudo sobre
os dados. Isso torna possível colocar os dados para trabalhar, resolvendo
problemas e tomando decisões orientadas por dados. Como analista de dados,
há três tipos comuns de metadados com os quais você se deparará: descritivo,
estrutural e administrativos. Os metadados descritivos são metadados que
descrevem um pedaço dos dados e podem ser usados para identificá-los em um
momento mais tarde. Por exemplo, o metadados descritivos de um livro em uma
biblioteca incluiriam o código que você vê na lombada do livro, conhecido como
Padrão Internacional de Numeração de Livro, também chamado de ISBN.
Também incluiria o autor e título do livro. A seguir são os metadados estruturais

que são metadados que indicam como um pedaço dos dados são organizados e
se é parte de uma ou mais coleta de dados. Vamos voltar para a biblioteca. Um
exemplo de dados estruturais seria como as páginas de um livro são montadas
para criar capítulos diferentes. É importante notar que esses metadados
estruturais também mantêm um registro da relação entre duas coisas. Por
exemplo, eles podem nos mostrar que o documento digital de um livro escrito
manualmente era na verdade a versão original de um livro agora impresso.
Finalmente, temos os metadados administrativos. Os metadados administrativos
são metadados que indicam a fonte técnica de um bem digital. Quando olhamos
para os metadados dentro da foto, tratam-se de metadados administrativos. Exibe
qual o tipo de arquivo que era, a data e a hora em que foi tirada, e muito mais.
Aqui vai um pensamento final para ajudá-lo a entender os metadados. Se você
estiver a caminho da biblioteca para escolher um livro, você poderia pesquisar o
título do livro, autor, comprimento, e número de capítulos. Isso é tudo metadados,
e isso pode lhe dizer muito sobre o livro, mas você tem que de fato ler o livro para
saber do que se trata. Da mesma forma, você pode ler sobre análise de dados,
mas você tem que fazer este curso para ganhar o Certificado de Análise de Dados
da Google. Continue avançando para ganhar essa nova perspectiva.
Os metadados são tão importantes quanto os próprios

dados
A análise de dados, por projeto, é um campo que prospera na coleta e organização
de dados. Nesta leitura, você vai aprender sobre como analisar e compreender
completamente cada aspecto de seus dados.
Dê uma olhada em qualquer dado que encontrar. O que é isso? De onde veio? É
útil? Como saber? É aqui que entram os metadados para proporcionar uma
compreensão mais profunda dos dados. Em termos simples, metadados são
dados sobre dados. No gerenciamento de banco de dados, eles fornecem
informações sobre outros dados e ajudam os analistas de dados a interpretarem
o conteúdo dos dados dentro de um banco de dados.
Independentemente de você estar trabalhando com uma grande ou pequena

quantidade de dados, os metadados são a marca de uma equipe de analistas
conhecedores, ajudando a comunicar sobre os dados em toda a empresa e
facilitando a reutilização dos dados. Em essência, os metadados dizem quem, o
quê, quando, onde, qual, como e por que dos dados.
Elementos dos metadados
Antes de analisar exemplos de metadados, é importante entender que tipo de

metadados de informação normalmente fornecem.
Título e descrição
Qual é o nome do arquivo ou website que você está examinando? Que tipo de
conteúdo ele contém?
Etiquetas e categorias
Qual é a visão geral dos dados que você tem? Os dados são indexados ou
descritos de uma forma específica?
Quem criou e quando
De onde vieram os dados e quando foram criados? É recente, ou já existe há muito

tempo?
Quem o modificou pela última vez e quando
Foram feitas algumas alterações nos dados? Em caso afirmativo, as modificações

foram recentes?
Quem pode acessá-los ou atualizá-los

Este conjunto de dados é público? São necessárias permissões especiais para
personalizar ou modificar o conjunto de dados?
Exemplos dos metadados
No mundo digital atual, os metadados estão em toda parte, e está se tornando

uma prática mais comum fornecer metadados em muitas mídias e informações
com as quais você interage. Aqui estão alguns exemplos do mundo real de onde
encontrar metadados:
Fotos
Sempre que uma foto é capturada com uma câmera, metadados como nome de
arquivo da câmera, data, hora e geolocalização são coletados e salvos com ela.
E-mails
Quando um e-mail é enviado ou recebido, há muitos metadados visíveis, como

linha de assunto, o remetente, o destinatário e data e hora de envio. Há também
metadados escondidos que incluem nomes de servidores, endereços IP, formato
HTML e detalhes de software.
Planilhas e documentos
Planilhas e documentos já estão preenchidos com uma quantidade considerável

de dados, portanto não é surpresa que os metadados também os acompanhem.
Títulos, autor, data de criação, número de páginas, comentários de usuários,
assim como nomes de abas, tabelas e colunas são todos metadados que se
podem encontrar em planilhas e documentos.
Websites
Cada página web tem uma série de campos de metadados padrão, tais como
etiquetas e categorias, nome do criador do site, título e descrição da página web,
hora da criação e qualquer iconografia.
Arquivos digitais
Normalmente, se você clicar com o botão direito do mouse em qualquer arquivo

de computador, você verá seus metadados. Isto poderia consistir no nome do
arquivo, tamanho do arquivo, data de criação e modificação, e tipo de arquivo.
Livros
Os metadados não são apenas digitais. Cada livro tem um número de metadados
padrão nas capas e no interior que o informarão de seu título, nome do autor, um
índice, informações da editora, descrição dos direitos autorais, índice e uma breve
descrição do conteúdo do livro.
Dados como você os conhece

Conhecer o conteúdo e o contexto de seus dados, bem como eles são
estruturados, é muito valioso em sua carreira como analista de dados. Ao analisar
os dados, é importante entender sempre o quadro completo. Não se trata apenas
dos dados que você estar visualizando, mas de como esses dados se juntam. Os
Metadados asseguram que você seja capaz de encontrar, usar, preservar e
reutilizar dados no futuro. Lembre-se, será de sua responsabilidade gerenciar e
fazer uso dos dados em sua totalidade; os metadados são tão importantes quanto
os próprios dados.
Usando metadados como analista

Agora que você sabe o que são metadados, é hora de explorar o porquê os
analistas de dados os utilizam. Você já sabe que os dados precisam ser
identificados e descritos antes de poderem ajudá-lo a resolver algum problema ou
tomar uma decisão comercial efetiva. Colocar os dados em contexto é
provavelmente a coisa mais valiosa que os metadados fazem, mas ainda há muito
mais benefícios do uso de metadados. Veja um. Os metadados criam uma fonte
única de confiança ao manter as coisas consistentes e uniformes. Nós, analistas
de dados, amamos consistência. Sempre visamos este tipo de uniformidade em
nossos dados e nossos bancos de dados. Afinal de contas, dados que são
uniformes podem ser organizados, classificados, armazenados, acessados, e
utilizados eficazmente. Além disso, quando um banco de dados é consistente, é
muito mais fácil de descobrir relações entre os dados dentro dele e os dados em
outros lugares. Os metadados também tornam os dados mais confiáveis ao
certificar-se de que estão corretos, precisos, relevantes e oportunos. Isso também
facilita para os analistas de dados a identificação da causa raiz de qualquer
problema que possa surgir. O resultado final é, quando os dados com que
trabalhamos são de alta qualidade, isso facilita as coisas e melhora nossos
resultados. Uma das maneiras que os analistas de dados se certificam de que
seus dados são consistentes e confiáveis é através de algo chamado de
repositório de metadados. Um repositório de metadados é um banco de dados
especificamente criado para armazenar metadados. Os repositórios de
metadados podem ser armazenados em uma localização física, ou eles podem
ser virtuais, como dados que existem na nuvem. Esses repositórios descrevem de
onde vieram os metadados, os mantêm em uma forma acessível para que possam
ser usados de forma rápida e fácil, e os mantêm em uma estrutura comum para
todos que possam precisar utilizá-los. Os repositórios de metadados tornam mais
fácil e rápido reunir múltiplas fontes para análise de dados. Eles fazem isso
descrevendo o estado e a localização dos metadados, a estrutura das tabelas
internas, e como os dados fluem através do repositório. Eles inclusive rastreiam
quem acessa os metadados e quando. Aqui está um exemplo do mundo real.
Como um analista de serviços de saúde da Google, Eu uso dados de fontes
imediatas e de terceiros. Como você aprendeu, dados fontes imediatas são dados
que são coletados por um grupo diretamente de seu público e depois vendidos.
Os dados de terceiros vêm de fontes externas, que não são os originais coletores
desses dados. Eles o obtêm em websites ou programas que conseguem os dados
das diversas plataformas onde foram gerados originalmente. É um pouco
complexo, mas o principal a ser lembrado é que os dados de terceiros não vêm
de dentro de sua própria empresa. Se minha equipe precisar trabalhar com dados
que não foram criados na Google, isso significa que, às vezes, não sabemos muito
sobre sua qualidade e credibilidade desses dados, mas precisamos ter certeza
que nossos dados podem ser de confiança e que foram coletados de forma
responsável. Afinal de contas, se os dados não são confiáveis, nossos resultados
também não serão confiáveis. É por isso que a compreensão dos metadados do
banco de dados externo é tão importante. Isso nos permite confirmar que os dados
estão limpos, precisos, relevantes e oportunos. Isto é importante principalmente
se os dados provêm de outra organização. Um outro passo importante ao se
trabalhar com dados externos é confirmar que temos permissão para usá-los.
Sempre iremos entrar em contato com o proprietário para certificarmos de que
podemos acessar ou comprar os dados. Em resumo, os repositórios de
metadados são úteis por todas estas razões. Além disso, eles ajudam a garantir
que minha equipe está pegando o conteúdo certo para o projeto específico e
usando de forma apropriada. Podemos confirmar isto porque os metadados
claramente descrevem como e quando os dados foram coletados, como estão
organizados, e muito mais. Em breve você aprenderá ainda mais sobre o uso de
metadados em análise de dados, e se você estiver achando os metadados
fascinantes, você vai descobrir algumas possibilidades de carreiras realmente
interessantes que se concentram em metadados. Então, prepare-se.
Gerenciamento de metadados
Metadados e repositórios de metadados são ferramentas muito poderosas na

caixa de ferramentas do analista de dados. Como discutimos anteriormente, os
analistas de dados os utilizam para criar uma única fonte confiável, manter os
dados consistentes e uniformes, e garantir que os dados com que trabalhamos
sejam corretos, precisos, relevantes e atuais. Essas ferramentas também facilitam
o acesso e uso dos dados, padronizando nossos processos. Neste vídeo,
exploraremos mais componentes dos metadados e aprenderemos como os
analistas de metadados trabalham para manter as coisas organizadas. Sabemos
que a quantidade de dados lá fora continua a crescer, mas muitas empresas
simplesmente não estão usando seus dados. Algumas vezes, elas não sabem o
que têm, às vezes não conseguem encontrá-los ou às vezes uma empresa
simplesmente não confia nisso. Especialmente em empresas maiores, dados
podem abranger inúmeros diferentes processos e sistemas. E reunir dados de
tantos lugares pode ser um grande desafio. Por exemplo, digamos que uma
empresa comece com um armazenamento de dados tradicional em seus
escritórios. Mas, como a quantidade de dados que tem continua a crescer,
também é necessário o armazenamento em nuvem. Além disso, esta empresa
também poderia estar acessando e usando dados de terceiros de uma
organização parceira. Cada um desses sistemas tem suas próprias regras e
exigências, de modo que cada um organiza os dados de uma maneira
completamente diferente, aumentando ainda mais complexidade. Não é de se
admirar que muitas organizações lutem para encontrar os dados corretos no
momento certo. Por outro lado, os metadados são armazenados em uma
localização única e central e fornecem à empresa informações padronizadas
sobre todos os seus dados. Há duas maneiras de fazer isso. Primeiro, metadados
incluem informações sobre onde cada sistema está localizado e onde os conjuntos
de dados estão localizados dentro desses sistemas. Segundo os metadados
descrevem como todos os dados estão conectados entre os vários sistemas.
Outro aspecto importante dos metadados é algo chamado governança de dados.
A governança de dados é um processo que garante a gestão formal dos recursos
de dados de uma empresa. Isto dá a uma organização melhor controle de seus
dados e ajuda uma empresa a gerenciar problemas relacionados a dados
segurança e privacidade, integridade, usabilidade e fluxo interno e externo de
dados. É importante notar que governança de dados é mais do que apenas a
padronização de terminologia e procedimentos. É sobre as funções e
responsabilidades as pessoas que trabalham com os metadados diariamente.
Esses são os especialistas em metadados e eles organizam e mantêm os dados
da empresa, garantindo que sejam da mais alta qualidade possível. Esses
profissionais criam informações básicas de identificação e descoberta de
metadados descrevem o modo diferente que os conjuntos de dados funcionam
juntos, e explicam os muitos diferentes tipos de recursos de dados. Especialistas
em metadados também criam padrões muito importantes que todos seguem e os
modelos usados para organizar os dados. Há uma coisa que eles todos têm em
comum. Não importa se trabalham em uma empresa de tecnologia, uma
associação sem fins lucrativos ou uma instituição financeira, os analistas de
metadados são peças importantes da equipe. São apaixonados sobre como fazer
os dados acessíveis por meio do compartilhamento com colegas e outras partes
interessadas. Se está procurando um papel que o encoraje a explorar todos os
dados que o mundo digital tem a oferecer, seguir o caminho para se tornar um
analista de metadados pode ser a escolha certa para você. Mas, de qualquer
forma, empresas de todos os tipos enfrentam as tendências do mercado e a
concorrência, e precisam entender porque um processo funciona e outro não. A
análise de dados permite responder perguntas-chave e seguir melhorando.
Megan: Diversão com metadados
Meu nome é Megan, e sou líder de medição de agências aqui no Google.

Basicamente, ajudo a desmistificar medições e análises para agências de
publicidade. Portanto, as pessoas encarregadas de executar planos de mídia para
anunciantes, mas também pessoas interessadas em medir o impacto que a mídia
está tendo para seus clientes. Tenho feito isso há cerca de 17 anos e vi muita
evolução na área a partir da disponibilidade de dados, de diferentes técnicas de
modelagem se tornando mais avançadas, mas também mais acessíveis, e tem
sido uma jornada muito legal para ver como tudo evoluiu, como o Analytics tem se
tornando mais popular e como as pessoas estão ficando mais entusiasmadas com
isso. Os metadados são basicamente a chave para seu conjunto de dados maior.
Eles ajudam a descrever o que está nas linhas e nas colunas de dados com os
quais você trabalhará. Os metadados são uma espécie de abreviação ou uma
versão CliffsNotes de um conjunto de informações muito mais complexo. Pode ser
útil para ajudar você a ter uma noção do que há em um único conjunto de dados
ao qual você pode ter acesso.
É uma parte importante do processo de descoberta de qualquer projeto de análise,

pois você está trabalhando com um cliente ou fornecedor para entender os
recursos que terá para resolver um problema e o que pode estar faltando. Eles
apenas fornecem as chaves para desbloquear esses dados de uma forma muito
simples e direta e são uma ótima ferramenta de comunicação. Quando eu
trabalhava para um anunciante, uma das coisas que estávamos tentando fazer
era construir algo chamado data lake. Basicamente, isso reúne todas as fontes de
dados que você pode desejar usar em uma análise em um lugar, o que pode ser
muito, muito complicado. Uma das vantagens dos metadados era descobrir onde
tínhamos fontes que podiam se sobrepor, onde tínhamos fontes de dados com
coisas em comum. E quais eram as informações exclusivas que estávamos
obtendo de cada um desses conjuntos de dados. Então, enquanto pensávamos
em lidar com esse projeto realmente grande e importante, pudemos usar
metadados para, de maneira rápida e fácil, chegar às construções básicas que
estávamos tentando resolver. Quando você está trabalhando com pessoas que
talvez não tenham análises como trabalho diário, conseguindo aquele momento
"aha", ajudando-os a entender como a medição e o analytics são ferramentas que
podem ajudá-los a atingir seus objetivos, é muito importante. E só por ter essa
ideia de que você tornou algo que antes era inacessível um pouco mais acessível
para aquela equipe e algo que eles se sintam confortáveis colocando em prática,
é muito importante e realmente uma ótima maneira de vir de uma parceria.
Trabalhar com mais fontes de dados

Neste vídeo, conheceremos os diferentes lugares que os analistas de dados vão
para conectar dados. Há todo tipo de dados espalhados por aí a fora e é
importante saber como acessá-los. Anteriormente, você aprendeu que existem
dois tipos básicos de dados usados por analistas de dados: internos e externos.
Dados internos são dados que residem no próprio sistema das empresas.
Normalmente são gerados também de dentro da empresa. Você também pode
ver dados internos descritos como dados primários. Os dados externos são dados
que residem e são gerados fora uma organização. Podem vir de uma variedade
de lugares, incluindo outras empresas, fontes governamentais, a mídia,
associações profissionais, escolas, e muito mais. Os dados externos às vezes são
chamados dados secundários. Coletar de dados internos pode ser complicado.
Dependendo do seu projeto de análise de dados, você pode precisar de dados de
muitas fontes e departamentos diferentes incluindo vendas, marketing,
gerenciamento de gestão de relacionamento com o cliente, finanças, recursos
humanos, e até mesmo os arquivos de dados. Mas o esforço vale a pena. Os
dados internos têm muitas vantagens para uma empresa. Eles fornecem
informações relevantes para problemas que você está tentando resolver, e são de
livre acesso porque já pertencem a empresa. já os possui. Com dados internos,
os analistas podem trabalhar em todos os projetos de dados sem recorrer a
recursos. externos. Mas às vezes os dados internos não lhe dão o cenário
completo. Nesses casos, os analistas de dados podem recorrer a dados externos
e aplicar essas informações à sua análise. Por exemplo, como analistas da área
de saúde, geralmente temos parcerias com outras organizações do setor ou
organizações sem fins lucrativos e usamos esses dados para criar análises mais
profundas e adicionar um pouco mais de perspectiva em nível de setor. Em um
vídeo anterior, você aprendeu que essa abertura criou muitos dados para serem
usados pelos analistas, em grande parte por meio de iniciativas de dados. Como
um lembrete, abertura de dados ou dados abertos refere-se ao livre acesso, uso
e compartilhamento de dados. Por exemplo, o governo dos Estados Unidos
disponibiliza centenas de milhares de conjuntos de dados ao público por meio do
site Data.gov. Estes conjuntos de dados contêm informações sobre padrões
meteorológicos, progressos educacionais, taxas de criminalidade, transporte, e
muito mais. Há muitas razões para estas iniciativas de dados abertos. Uma delas
é deixar as atividades do governo mais transparentes, como deixar o público ver
onde o dinheiro é aplicado. Também ajuda a educar os cidadãos sobre o voto e
questões locais. Dados abertos também melhoram o serviço público, dando às
pessoas maneiras de fazer parte de planejamento público ou fornecer feedback
para o governo. Finalmente, dados abertos levam à inovação e ao crescimento
econômico, ajudando pessoas e empresas a compreenderem melhor seus
mercados. Realmente, o Google hospeda muitos bancos de dados públicos com
informações sobre ciência, transporte, economia, clima, e muito mais. Como
exemplo, uma empresa de compartilhamento de bicicletas poderia usar os dados
de tráfego de dentro dos nossos bancos de dados públicos de transporte para
monitorar onde as vias estão mais congestionadas e escolher esses locais como
ponto para suas bicicletas a fim de reduzir o número de carros nas ruas e dar ao
público uma outra opção de transporte. Agora você está familiarizado com dados
internos e externos e como você pode acessá-los. A seguir, vamos aprender como
importar todos os dados que você coleta de diferentes fontes para dentro de uma
planilha.
Importação de dados de planilhas e bancos de dados

Neste ponto, você já aprendeu tudo sobre dados internos e externos e como
prepará-los para o uso. Agora, vamos passar pelo processo de realmente importar
dados de fontes diferentes. Às vezes você quer fazer o upload uma planilha de
cálculos de seus arquivos, como por exemplo um arquivo CSV. CSV significa
valores separados por vírgula. Um arquivo CSV salva dados em um formato de
tabela. Agora, vamos trazer esse arquivo para uma nova planilha.
Vamos começar selecionando um arquivo para depois importar.
Em seguida, vamos em fazer o upload de um arquivo.
Navegue até ela, abra e insira como uma nova planilha.
Os arquivos CSV utilizam texto simples e delimitados por caracteres. Assim, cada
coluna ou campo fica claramente distinto de outro depois de importar. Como
vimos, os CSVs são separados por vírgula, e geralmente o aplicativo de planilhas
detectará automaticamente essas separações. Mas às vezes, você pode precisar
indicar que o separador é outro caractere ou um espaço, selecionando as
diferentes opções nesta janela.
Além disso, se estiver planejando trabalhar com o conjunto de dados, você

normalmente o converteria em texto, números ou outras opções. Mas texto
simples é bom para fins informativos. Portanto, podemos deixar esses campos em
paz. Finalmente, selecione Importar dados.
Agora nosso arquivo CSV está pronto para trabalhar em nossa planilha. Eu passo
a maior parte do meu tempo no trabalho analisando planilhas cheias de
informações sobre saúde. Normalmente começo procurando em um conjunto de
dados maior. Então eu puxo um subconjunto dele para uma planilha para que eu
possa trabalhar com ela. Talvez eu queira analisar o crescimento anual da
demanda dos usuários no Google Search por certos serviços de saúde, como a
telemedicina. Ou talvez eu queira olhar para conjuntos de dados de organizações
externas de saúde ou agências para obter mais informações sobre esta tendência.
Por exemplo, com a telemedicina, talvez eu olhe para uma planilha que liste os
fornecedores de telemedicina. Há tantas maneiras de as planilhas o ajudarem a
encontrar os insights que você precisa. Uma fonte que eu uso muito é o
Repositório de dados da organização mundial de saúde.
Este é um lugar onde qualquer pessoa pode acessar dados de código aberto.
Como você pode ver, há toneladas de dados disponíveis. Você pode pesquisar
por tema, categoria, indicador e país. Você também pode acessar o site
Metadados da organização Mundial de Saúde, se você quiser aprender mais
sobre os dados no repositório.
Para nosso exemplo, vamos olhar para médicos por país e ano.
Esta informação seria útil para um projeto de análise de dados que investiga
quantos médicos estão disponíveis para tratar pacientes dentro de uma
determinada população em comparação com outras populações. Para obter estes
dados, vamos começar nessa página web, que contém o conjunto de dados que
desejamos. Depois faremos o download dos dados como um arquivo CSV.
Em seguida, abra uma nova planilha e importe o arquivo, selecionando Arquivo,

Importar.
Em seguida, faça upload do seu arquivo e selecione importar dados.
Após a revisão dos dados para ter certeza que estão claros, podemos nomeá-los
e começar nosso trabalho.
Sabemos que é muita informação para absorver, mas você ficará muito mais
confortável com isso, quanto mais você praticar. A seguir, vamos aprender a
classificar e filtrar seus dados para se concentrar nas informações relevantes para
você.
Classificar e filtrar
Nos últimos vídeos, você aprendeu sobre os dados internos e externos. Agora vou
lhe mostrar como concentrar-se apenas nos dados que são relevantes para o
problema que você está tentando resolver. Isso é útil se você estiver trabalhando
com uma planilha muito grande e complexa, que os analistas de dados encontram
o tempo todo. Ter muitos dados pode dificultar para encontrar e analisar
rapidamente as informações que você precisa. As análises de projetos não são as
mesmas. Muitas vezes os analistas de dados processam, visualizam e usam os
dados de forma muito diferente, mesmo que venham exatamente da mesma fonte.
Vamos a um exemplo. Verifique esta planilha que mostra as vendas do
representante de uma empresa e onde eles trabalham. Diferentes analistas de
dados podem querer informações diferentes da planilha, e é lá que a triagem e a
filtragem começam. Classificar e filtrar os dados em uma planilha nos ajuda a
personalizar a forma como os dados são apresentados. Eles também podem
organizar os dados para que os analistas possam se concentrar nas partes que
importam. Pense nisso como uma lupa para nossos dados. Vamos começar com
a classificação. A classificação envolve a organização dos dados em uma ordem
significativa para facilitar a compreensão, a análise, e a visualização. Os dados
podem ser classificados em ordem crescente ou decrescente e em ordem
alfabética ou numérica. A classificação pode ser feita em toda planilha ou apenas
em uma única coluna ou tabela. Você também pode classificar por múltiplas
variáveis. Por exemplo, se nosso conjunto de dados contém os campos de cidade
e estado, podemos classificar primeiro por cidade e depois por estado.
Sempre que você estiver classificando dados, é sempre uma boa ideia congelar
primeiro a linha de cabeçalho. Para isso, vamos destacar a linha. Em seguida, a
partir do menu Ver, escolha congelar uma linha.
Isso fixa a linha no lugar. Agora, quando nos deslocamos pela planilha, a linha de
cabeçalho permanece visível para que saibamos a categoria de cada coluna.
Assim está ótimo pra mim. Agora vamos classificar a planilha inteira. Vamos
classificar primeiro por cidade. Para fazer isso, selecione a coluna da cidade,
depois use a seta direcional pra baixo para classificar a planilha. Selecione de A a
Z.
Isso classificará todas as colunas de A a Z por linha com a coluna selecionada

sendo o critério primário de classificação. As cidades estão agora classificadas
por ordem alfabética, e elas ainda estão agrupadas com os estados
correspondentes, representantes de vendas e autopeças. Os detalhes em cada
linha são automaticamente mantidos juntos ao classificar uma seção específica.
Bem, como você pode ver, a classificação por vários critérios é uma outra
ferramenta muito útil da análise de dados. Por exemplo, digamos que queremos
ver uma lista de representantes de vendas pelas cidades e estados nos quais eles
trabalham. Primeiro, selecionamos o conjunto de dados completo, depois
escolhemos os dados e a faixa de classificação.
Na caixa de diálogo, certifique-se de que "Os dados têm linha de cabeçalho" esteja
marcada.
Dessa forma, linha A, cidade, estados, representante de vendas e autopeças não

serão parte da classificação.
Depois na classificação por menu suspenso, selecione estado e a ordem de

classificação de A a Z. Agora acrescente outra coluna de classificação. No menu
suspenso "por", selecione cidade e a ordem de classificação de A a Z.
Finalmente, selecione Classificar.
Agora podemos pesquisar os dados para facilmente encontrar um representante

de vendas que trabalha em uma cidade e estado específicos. A classificação é útil
quando você quer visualizar tudo em uma planilha em ordem alfabética ou
numérica. Mas às vezes os analistas de dados querem isolar uma determinada
parte da informação. Para isso, eles utilizam um filtro. Filtrar significa mostrar
somente os dados que atendem a um critério específico enquanto oculta o resto.
Um filtro simplifica uma planilha apenas nos mostrando as informações que
precisamos. Por exemplo, nós poderíamos adicionar um filtro para ver somente
os representantes de vendas que trabalharam com um determinado produto. Para
isso, primeiro selecionamos Dados e Criar um filtro. Escolha a coluna com os
dados de que precisamos. Neste caso, Autopeças. Os botões de filtro aparecerão
no canto de cada cabeçalho de coluna. Para filtrar nossa planilha por autopeças,
clique no botão no cabeçalho Autopeças. Neste exemplo, digamos que queremos
ver apenas representantes de vendas que trabalharam com jantes. Remova as
marcas de verificação das categorias que não queremos ver, que seria tudo
exceto para jantes.
Em seguida, selecione ok.
O filtro oculta temporariamente qualquer coisa que não atenda à condição. Mas
note que, mesmo que eles não estejam visíveis, eles ainda estão lá. Quando
chegar a hora de ver a planilha inteira novamente, simplesmente remova o filtro.
Classificar e filtrar os dados são ferramentas muito importantes na caixa de

ferramentas do analista de dados. No próximo vídeo, você descobrirá ainda mais
formas de restringir as informações exatas que você precisa para qualquer projeto
de análise de dados.
Trabalhar com grandes conjuntos de dados em SQL
Configuração do BigQuery, incluindo sandbox e opções

de faturamento
Olá. Bem-vindo de volta. Ao longo deste curso, você viu como o BigQuery pode
ser usado para visualizar e analisar dados de toneladas de fontes. Agora vamos
explorar os diferentes níveis de conta que o BigQuery oferece, para que você
saiba como escolher o nível certo para suas necessidades e como você pode
acessá-los. O BigQuery é oferecido para você sem nenhum custo. Existem
opções pagas disponíveis, mas não vamos precisar delas para as atividades
deste curso. Em vez disso, vamos falar sobre dois tipos de conta: sandbox e
avaliação gratuita. Uma conta sandbox está disponível sem nenhum custo e
qualquer um com uma conta no Google pode fazer login e usar. Há algumas
limitações para este tipo de conta. Por exemplo, você tem um máximo de 12
projetos por vez. Isso significa que se você quiser para fazer um 13º projeto, vai
ter que excluir um dos seus 12 projetos originais. Ela também não permite que
você insira novos registros em um banco de dados ou atualize os valores dos
campos de registros existentes. Essa Linguagem de Manipulações de Dados ou
DML não tem têm suporte no sandbox No entanto, você vai precisar fazer isso
nas atividades do curso. Você pode ler mais sobre as limitações de uma conta
sandbox na documentação do BigQuery. Este é o tipo de conta que vamos usar
para a maioria de nossas atividades. É simples de configurar. Então, mais tarde
neste vídeo vamos revisar cada um desses passos necessários para criar uma
conta. Antes disso, porém, devemos falar sobre a outra maneira de usar o
BigQuery sem custos. A avaliação gratuita do Google Cloud. A avaliação gratuita
dá acesso a mais do que o BigQuery tem a oferecer com menos limitações no
geral. A avaliação gratuita oferece US$ 300 em crédito para uso no Google Cloud
durante os primeiros 90 dias. Você não chegará nem perto desse limite de gastos
se usar o console BigQuery somente para praticar consultas SQL. Depois de
gastar os US$ 300 de crédito ou depois de 90 dias, a sua avaliação gratuita vai
expirar e você vai precisar selecionar pessoalmente atualizar para uma conta
paga a fim de trabalhando no Google Cloud. Seu método de pagamento não será
cobrado automaticamente após o término da sua avaliação gratuita. A avaliação
gratuita exige que você configure uma opção de pagamento no Google Cloud.
Mas a menos que você opte por uma atualização da conta, ele não vai cobrar
você. Porém, ele exige, sim, que você insira um tipo de pagamento. Nós
entendemos se você não se sentir confortável com essa opção. Este é um dos
motivos pelos quais existe a conta sandbox do BigQuery, para que você não
precise inserir nenhuma informação de pagamento. Com qualquer tipo de conta,
você pode atualizar para uma conta paga a qualquer momento e manter todos
os seus projetos existentes. Se você configurar uma conta para avaliação
gratuita mas optar por não atualizar para uma conta paga quando seu período
de teste terminar, você pode então configurar uma conta sandbox. No entanto,
os projetos da sua avaliação não serão transferidos para sua sandbox. Seria
como recomeçar do zero. Apenas algo para ter em mente. Agora vamos definir
sua conta sandbox, que você pode transformar em avaliação gratuita ou atualizar
para uma conta paga se preferir. Primeiro, nós vamos para a página de
documentação do sandbox do BigQuery. Em seguida, vamos para o canto
superior direito para fazer login em quaisquer contas do Google que você desejar
para usar para a conta sandbox do BigQuery. Vamos então selecionar o
botão"Vá para BigQuery" na página de documentação. Isso nos leva a um menu
suspenso para selecionar um país e para ler os termos do contrato de serviço.
Isso nos levará ao espaço de trabalho SQL, que vamos usar nas nossas
próximas atividades. Escolha "Criar projeto" e dê um nome ao projeto, gerando-
lhe um ID. Escolha "Criar" e, então, "Pronto". Aí está. No próximo vídeo, vamos
explorar o que cada parte do espaço de trabalho SQL faz e como vamos usá-lo
em atividades futuras. Vejo você lá.
Como usar o BigQuery
Olá. Neste vídeo, aprenderemos sobre cada parte do espaço de trabalho do SQL
no BigQuery para que você possa usá-lo durante este curso e ao longo de sua
carreira como analista de dados. É uma ferramenta extremamente valiosa e
amplamente popular, então entender como ela funciona será de grande ajuda.
Fique à vontade para acompanhar em sua tela enquanto exploramos o BigQuery.
Observe que minha tela parece um pouco diferente da sua, já que a interface do
BigQuery é constantemente atualizada. Não se preocupe se for o caso, pois
pequenas diferenças não o impedirão de entender o básico. Para começar, vá
para a página de entrada do BigQuery e faça login na conta em que você criou
anteriormente. Para navegar até o espaço de trabalho do SQL, selecione o menu
no lado esquerdo da tela e role para baixo até o cabeçalho do Big Data. Em
seguida, passe o mouse sobre o rótulo do BigQuery e clique em “espaço de
trabalho do SQL” no menu suspenso. Agora que estamos no espaço de trabalho
do SQL, vamos pesquisar conjuntos de dados públicos, selecionar um conjunto
de dados por meio do Data Explorer, executar uma consulta e carregar nossos
próprios dados para consulta. Primeiro, vamos procurar um conjunto de dados
público para usar. Para selecionar um conjunto de dados público, navegue até o
menu Explorador no lado esquerdo da tela. Clique no botão “Adicionar dados”
no canto superior direito do menu. Em seguida, no menu suspenso, selecione
“Explorar conjuntos de dados públicos”. Isso abrirá o marketplace e mostrará os
conjuntos de dados públicos disponíveis. Vamos para a barra de pesquisa do
marketplace procurar noaa_lightning, um conjunto de dados que usaremos em
uma atividade futura. Clique no conjunto de dados “Cloud-to-Ground Lightning
Strikes”. Isso nos dará uma descrição e uma pré-visualização do conjunto de
dados que captura observações sobre a atividade de raios e padrões climáticos
nos Estados Unidos. Clique em “Visualizar conjunto de dados”. Isso o levará de
volta ao espaço de trabalho do SQL e criará uma guia para o conjunto de dados.
Podemos então voltar à guia Editor que abrimos ou clicar em “Compor nova
consulta” para começar a escrever com SQL. À esquerda, observe que a lista
suspensa de dados públicos do BigQuery está no menu Explorador. Podemos
clicar na seta para expandir a lista de dados do BigQuery e escolher um novo
conjunto de dados. Vamos selecionar o primeiro conjunto de dados na lista
suspensa, austin_311. Quando fazemos isso, ele se expande para mostrar a
tabela dentro do conjunto de dados. Podemos abrir o conjunto de dados para
uma pré-visualização. A guia Esquema contém os nomes de cada coluna no
conjunto de dados. A guia Detalhes contém metadados adicionais, como a data
de criação do conjunto de dados. A guia Pré-visualização contém as primeiras
linhas do conjunto de dados. Nesta página, podemos clicar em “Consultar” para
criar automaticamente uma nova janela do editor com o modelo para uma
consulta já preenchida. A partir daqui, coloque um asterisco após selecionar,
onde nosso cursor aparece, e execute a consulta. Parabéns, você executou uma
consulta do SQL no BigQuery. A consulta que você executou retornou linhas do
conjunto de dados que são preenchidas em uma janela abaixo da interface do
editor. Os resultados de qualquer consulta executada também serão exibidos
aqui. Agora, digamos que você tenha os resultados de uma pesquisa que deseja
fazer o upload para o BigQuery e analisar usando o SQL. Para adicionar seus
próprios dados ao BigQuery, escolha o ID do projeto que deseja adicionar.
Selecione o ícone de três pontos verticais para abrir as opções do projeto e
escolha “Criar conjunto de dados”. Atribua um nome ao conjunto de dados que
o ajudará a identificá-lo mais adiante, como por exemplo, upload_test_dataset.
Em seguida, clique em “Criar conjunto de dados”. Depois, vá para o menu
Explorador e escolha os três pontos verticais ao lado do conjunto de dados na
lista suspensa Projetos. Agora vamos selecionar o ícone de criar tabela, que
abre uma janela pop-up. Em Fonte e criar tabela de, selecione “Fazer upload” ou
qualquer método de sua preferência para fazer o upload de seus dados. Aqui,
podemos fazer o upload de qualquer arquivo de dados, como por exemplo,um
arquivo CSV. Vamos dar à nossa tabela um nome útil, como test_table. Verifique
se o esquema está definido para detecção automática e selecione “Criar tabela”.
Há muito mais por vir com o BigQuery. Fique à vontade para assistir novamente
a este vídeo a qualquer momento e continue praticando. Vejo você em breve.
BigQuery em ação
Você aprendeu como organizar e filtrar dados em planilhas ajuda os analistas de

dados a personalizarem as informações. A personalização dos dados torna isso
ainda mais significativo e mais fácil de entender, analisar e visualizar. Você
também constatou que algumas planilhas podem ser extremamente longas e
complexas. Portanto, saber como se concentrar nos dados exatos de que precisa
deixando de lado o restante, ajuda você a se concentrar em sua análise. Isso
também se aplica no caso dos bancos de dados. Às vezes um conjunto de dados
é muito grande para ser baixado, ou não caberá em uma planilha. Portanto, um
analista de dados usará SQL ao criar uma consulta para visualizar os dados
específicos que eles desejam de dentro do conjunto maior. Aprendemos que um
banco de dados é uma coleção de dados armazenados em um sistema de
computador. E que SQL significa Linguagem de Consulta Estruturada. Os
analistas de dados usam linguagens de consulta para se comunicar com o banco
de dados. Em um vídeo anterior, você também aprendeu que um banco de dados
relacional contém uma série de tabelas que podem ser conectadas para formar
relacionamentos. Esses relacionamentos são representados por chaves
primárias e estrangeiras. Os analistas de dados escrevem consultas para obter
dados dessas tabelas. Vamos ver como isso funciona. Começaremos com nosso
visualizador de tabelas.
Aqui podemos ver quais conjuntos públicos de dados estão disponíveis. Vamos
avaliar os dados antes de começarmos a usá-los para ter uma ideia do que são
e para ter certeza de que estão claros.
Alguns visualizadores tabelam permitem que você visualize algumas linhas
antes mesmo de escrever uma consulta. Isso é útil se você quiser dar uma
olhada rápida para ter certeza de que o conjunto de dados estará correto para
seu projeto. Para mostrar a você como isso funciona, vamos verificar um
conjunto de dados de amostra. Este aqui mostra quanta luz solar incide sobre os
telhados em um ano.
Isso seria muito útil para um analista de dados trabalhando em um projeto de
energia, por exemplo.
Começaremos com uma pré-visualização do conjunto de dados. Clique sobre
ele, assim.
Em seguida, selecionaremos um subconjunto desses dados, onde encontramos
regiões, estados, luz solar anual e muito mais. Agora para ver o conjunto
completo de dados, vamos escrever uma consulta. O primeiro passo é descobrir
o nome completo correto do conjunto de dados. Para fazer isso, selecione o
conjunto de dados, potencial solar por código postal, e selecione a tabela de
consulta.
O nome do conjunto de dados é exibido dentro dos dois backticks. Isso é para
nos ajudar a ler a consulta mais facilmente. Nesse caso, também podemos
remover os backticks e nossa consulta ainda funcionaria.
As palavras que você vê antes do ponto representam o nome do banco de dados.
E as palavras após o ponto representam o nome da tabela.
Vamos selecionar e copiar o nome do conjunto de dados agora porque vamos
precisar dele em breve.
Agora vamos clicar no sinal de mais para compor uma nova consulta.
A maioria das consultas começa com a palavra SELECT.
Depois acrescentamos um espaço.
Porque queremos ver todo o conjunto de dados, vamos colocar um asterisco a
seguir. O asterisco diz que queremos incluir todas as colunas. Este é um ótimo
atalho porque sem ele, teríamos que digitar o nome de cada campo.
Em seguida, pressionaremos Return e digitaremos FROM. FROM faz
exatamente o que parece. Ele indica de onde os dados estão vindo. Depois
disso, acrescentaremos outro espaço. Agora, nós colamos no nome do conjunto
de dados que copiamos anteriormente.
E por fim, fazemos a consulta.
Agora, você pode inspecionar cuidadosamente o conjunto de dados antes de
começarmos a trabalhar com ele. Uma coisa importante a ter em mente:
consultas SQL podem ser escritas de várias maneiras diferentes, mas ainda
fornecem os mesmos resultados. Por exemplo, poderíamos ter escrito esta
consulta como uma extensa linha de instruções assim, e ainda teríamos os
mesmos resultados.
As linhas e espaços adicionais não impactam no resultado da consulta, mas elas
mantêm sua consulta organizada e mais fácil de ler para você e para outros.
Agora, se o projeto não exige todos esses campos, podemos usar SQL para
visualizar um determinado pedaço ou pedaços de dados. Para fazer isso,
especificamos o nome da coluna na consulta. Por exemplo, talvez queiramos
apenas ver os dados da Pensilvânia. Então, vamos começar nossa consulta da
mesma forma que acabamos de aprender. SELECT, espaço, acrescente um
asterisco.
Em seguida, FROM de nosso banco de dados de potencial solar. Mas desta vez
vamos acrescentar WHERE.
WHERE também faz exatamente o que parece. Ele diz ao banco de dados onde
procurar informação. Neste caso, a coluna do nome do estado. Acrescente um
espaço e nome sublinhado do estado, o nome da coluna.
Como só queremos ver dados da Pensilvânia, acrescentamos um sinal de
igualdade e a palavra Pensilvânia entre aspas simples.
Em SQL as aspas simples indicam o início e o fim de uma string. Finalmente,
realizamos a consulta.
Agora podemos revisar os dados sobre o potencial solar apenas para a
Pensilvânia. Agora temos os dados que queremos e estamos prontos para
começar a colocá-los para trabalhar. Falaremos sobre isso mais tarde. Mas por
enquanto, vamos celebrar a conclusão de outro módulo. Abordamos muitas
informações complexas e altamente técnicas. À medida que pratica, as coisas
começam a ficar mais naturais pra você. Por enquanto, reserve um momento
para parar e pensar em tudo o que você aprendeu. Você descobriu os
metadados e como eles mantém os dados organizados, descrevendo do que se
trata esses dados. Você já viu como os dados internos e externos são acessados
e como os analistas de dados utilizam esses dados para encontrar percepções
úteis para resolver problemas comerciais. E você pode classificar e filtrar seus
dados para realmente localizar as informações de que precisa. Por fim, você
acabou de aprender sobre consultas e até praticou a escrita de algumas. A
seguir, você terá algumas leituras e então um desafio semanal para testar seus
conhecimentos. Isso o ajudará a confirmar que você entendeu o que temos
trabalhado nestes vídeos. E como sempre, se você estiver inseguro sobre uma
pergunta, o encorajamos a rever os vídeos e leituras para encontrar a resposta.
Agora você é o detetive de dados, portanto, use suas habilidades. Continue com
bom trabalho e vejo você após o desafio semanal.
Usando o BigQuery
BigQuery é um armazém de dados no Google Cloud que os analistas de dados
podem usar para consultar, filtrar grandes conjuntos de dados, agregar
resultados e realizar operações complexas.
Uma próxima atividade é realizada em BigQuery. Esta leitura fornece instruções
para criar sua própria conta BigQuery, selecionar conjuntos de dados públicos e
carregar arquivos CSV. No final desta leitura, você pode confirmar seu acesso
ao console BigQuery antes de passar para a atividade.
Tipos de contas BigQuery
Existem dois tipos diferentes de contas: sandbox e free trial. Uma conta sandbox
permite que você pratique consultas e explore gratuitamente conjuntos de dados
públicos, mas tem restrições adicionais para além das quotas e limites padrão.
Se você preferir usar BigQuery com os limites padrão, você pode criar uma conta
de teste gratuita em seu lugar. Mais detalhes:
Uma conta sandbox gratuita não pede um método de pagamento. No entanto,
ela limita a 12 projetos. Também não permite que você insira novos registros em
um banco de dados ou atualize os valores de campo dos registros existentes.
Estas operações de linguagem de manipulação de dados (DML) não são
suportadas no sandbox.
Uma conta experimental gratuita requer um método de pagamento para
estabelecer uma conta faturável, mas oferece total funcionalidade durante o
período experimental.
Com qualquer tipo de conta, você pode atualizar para uma conta paga a qualquer
momento e reter todos os seus projetos existentes. Se você criar uma conta
experimental gratuita, mas optar por não atualizar para uma conta paga quando
seu período experimental terminar, você ainda poderá criar uma conta sandbox
gratuita naquele momento. No entanto, os projetos de sua conta de teste não
serão transferidos para sua conta sandbox. Seria como recomeçar do zero.
Guia de aprofundamento: Melhores práticas SQL
Estas melhores práticas incluem diretrizes para escrever consultas SQL,

desenvolver documentação e exemplos que demonstram estas práticas. Este é
um grande recurso para ter à mão quando você mesmo estiver usando SQL.
Você pode simplesmente ir diretamente à seção relevante para rever estas
práticas. Pense nisso como um guia de campo SQL!
Uso de maiúsculas e diferenciação de maiúsculas e minúsculas
Com SQL, o uso de maiúsculas geralmente não importa. Você poderia escrever
SELECT ou selecionar ou SeLeCT. Ambos iriam funcionar! Mas se você usar
maiúsculas como parte de um estilo consistente, suas consultas parecerão mais
profissionais.
Para escrever consultas SQL como um profissional, é sempre uma boa ideia
usar todas em letras maiúsculas para iniciar as cláusulas (por exemplo, SELECT,
FROM, WHERE, etc.). As funções também devem estar todas em letras
maiúsculas (por exemplo, SUM()). Os nomes das colunas devem ser todos em
letras minúsculas. (consulte a seção sobre o Snake_case, mais adiante neste
guia). Os nomes das tabelas devem estar em CamelCase (consulte a seção
sobre CamelCase mais adiante neste guia). Isto ajuda a manter suas consultas
consistentes e mais fáceis de ler, sem afetar os dados que serão puxados
quando você os executar. A única vez que escrever com letra maiúscula importa
é quando ela está dentro de aspas (mais sobre aspas abaixo).
Os fornecedores de bancos de dados SQL podem usar variações ligeiramente

diferentes de SQL. Estas variações são chamadas de dialetos SQL. Alguns
dialetos SQL são sensíveis a maiúsculas e minúsculas. O BigQuery é uma delas.
Vertica é outro. Mas a maioria, como MySQL, PostgreSQL e SQL Server, não
são sensíveis a maiúsculas e minúsculas. Isto significa que se você procurou por
country_code = 'us', ele retornará todas as entradas que tenham 'us', 'uS', 'Us' e
'US'. Este não é o caso da BigQuery. BigQuery é sensível a maiúsculas e
minúsculas, de modo que ela busca só retornaria entradas onde o código do país
é exatamente 'nós'. Se o código de país for 'US', BigQuery não retornaria essas
entradas como parte de seu resultado.
Aspas simples ou duplas: "' ou " "
Na maioria das vezes, também não importa se você usa aspas simples '' ou
aspas duplas '' quando se refere a strings. Por exemplo, o SELECT é uma
cláusula inicial. Se você colocar o SELECT entre aspas como 'SELECT' ou
"SELECT", então o SQL o tratará como uma string de texto. Sua consulta
retornará um erro porque sua consulta necessita de uma cláusula SELECT.
Mas há duas situações em que importa que tipo de aspas que você usa:
1. Quando você quer que as strings sejam identificáveis em qualquer dialeto

SQL
2. Quando sua string contém um apóstrofo ou aspas
Dentro de cada dialeto SQL existem regras para o que é aceito e o que não é.
Mas uma regra geral em quase todos os dialetos SQL é usar aspas simples para
as strings. Isto ajuda a se livrar de muita confusão. Portanto, se quisermos fazer
referência ao país US em uma cláusula WHERE (por exemplo, country_code =
'US'), então use aspas simples ao redor da string 'US'.
A segunda situação é quando sua string tem aspas dentro dela. Suponha que
você tenha uma coluna de alimentos favoritos em uma tabela chamada
FavoriteFoods e a outra coluna corresponda a cada amigo.
Amigo Favorite_food
Rachel DeSantos Shepherd’s pie
Sujin Lee Tacos
Najil Okoro Spanish paella
Você pode notar como a comida favorita de Rachel contém um apóstrofo. Se
você usasse aspas simples em uma cláusula WHERE para encontrar o amigo
que tem esta comida favorita, seria parecido com isto:
Não vai funcionar. Se você executar esta consulta, será exibido um erro. Isto
porque SQL reconhece uma cadeia de texto como algo que começa com uma
citação 'e termina com outras aspas’. Portanto, na consulta ruim acima, o SQL
pensa que o Favorite_food que você está procurando é 'Shepherd'. Apenas
'Shepherd' porque o apóstrofo em Shepherd termina a string.
Em geral, esta deveria ser a única vez que você usaria aspas duplas em vez de
aspas simples. Deste modo, sua consulta ficaria assim:
SQL entende as strings de texto como começando com umas aspas simples ' ou
aspas dupla". Como está string começa com aspas duplas, o SQL esperará
outras aspas duplas para sinalizar o fim da string. Isto mantém o apóstrofo a
salvo, de modo que retorna "Shepherd's pie" e não "Shepherd".
Comentários como lembrete
À medida que você se sentir mais confortável com SQL, você será capaz de ler
e entender as consultas num relance. Mas não tem problema ter comentários na
consulta para se lembrar do que você está tentando fazer. E se você compartilhar
sua consulta, isso também ajuda os outros a compreendê-la.
Por exemplo,
Você pode usar # no lugar dos dois traços, --, na consulta acima, mas tenha em
mente que # não é reconhecido em todos os dialetos SQL (o MySQL não
reconhece #). Portanto, é melhor usar e ser consistente nisso. Quando você
adiciona um comentário a uma consulta usando --, o mecanismo de consulta de
banco de dados ignorará tudo na mesma linha depois de --. Continuará a
processar a consulta a partir da próxima linha.
Nomes "Snake_case" para colunas
É importante sempre garantir que o resultado de sua consulta tenha nomes

fáceis de entender. Se você criar uma nova coluna (digamos, a partir de um
cálculo ou da concatenação de novos campos), a nova coluna receberá um
nome genérico padrão (por exemplo, f0). Por exemplo,
The following table features the results of this query: f0: 8 f1: 4 total_tickets: 8
Number_of_purchases: 4
A tabela a seguir apresenta os resultados desta consulta: f0: 8 f1: 4 total_tickets:
8 Number_of_purchases: 4
Resultados:
f0 f1 total_tickets number_of_purchases
8 4 8 4
As duas primeiras colunas são denominadas f0 e f1 porque não foram nomeadas
na consulta acima. O padrão SQL é f0, f1, f2, f3, e assim por diante. Nomeamos
as duas últimas colunas total_de_tickets e número_de_compras para que estes
nomes de colunas apareçam nos resultados da consulta. É por isso que é
sempre bom dar nomes úteis a suas colunas, especialmente quando se utilizam
funções. Após executar sua consulta, você quer ser capaz de compreender
rapidamente seus resultados, como as duas últimas colunas que descrevemos
no exemplo.
Além disso, você pode notar como os nomes das colunas têm um sublinhado
entre as palavras. Nunca deve haver espaços nos nomes. Se 'total_tickets'
tivesse um espaço e parecesse 'total tickets' então SQL renomearia SUM(tickets)
como apenas 'total'. Por causa do espaço, SQL usará 'total' como o nome e não
entenderá o que você quer dizer com 'tickets'. Portanto, os espaços são ruins em
nomes SQL. Jamais use espaços.
A melhor prática é usar o Snake_case. Isto significa que 'total tickets', que tem
um espaço entre as duas palavras, deve ser escrito como 'total_tickets' com um
sublinhado em vez de um espaço.
Nomes CamelCase para tabelas
Você também pode usar letras maiúsculas CamelCase ao nomear sua tabela. O
uso de letras maiúsculas do CamelCase significa que o início de cada palavra
será maiúsculo, como um camelo de duas corcovas (bactriano). Portanto, a
tabela TicketsByOccasion utiliza o padrão CamelCase. Observe que a letra
maiúscula da primeira palavra em CamelCase é opcional; camelCase também é
usado. Algumas pessoas diferenciam entre os dois estilos chamando
CamelCase, PascalCase e reservando CamelCase para quando a primeira
palavra não é maiúscula, como um camelo de um só salto (Dromedary); por
exemplo, ticketsByOccasion.
No final das contas, o CamelCase é uma escolha de estilo. Há outras maneiras

de nomear suas tabelas, inclusive:
• Todas as letras minúsculas ou maiúsculas, como bilhetesbyoccasion ou

TICKETSBYOCCASION
• Com snake_case, como tickets_by_occasion
Tenha em mente que a opção com todas as letras minúsculas ou maiúsculas
pode dificultar a leitura do nome de sua tabela, por isso não é recomendada para
uso profissional.
A segunda opção, Snake_case, é tecnicamente boa. Com palavras separadas

por sublinhados, o nome de sua tabela é fácil de ler, mas pode ficar muito longo
porque você está acrescentando os sublinhados. Também leva mais tempo para
escrever. Se você usar muita esta tabela, ela pode se tornar uma tarefa difícil.
Em resumo, cabe a você usar o Snake_case ou CamelCase ao criar nomes de

tabelas. Certifique-se apenas de que o nome de sua tabela seja fácil de ler e
consistente. Certifique-se também de descobrir se sua empresa tem uma
maneira preferida de nomear suas tabelas. Se o fizerem, sempre devem ir com
sua convenção de nomeação por consistência.
Recuo
Como regra geral, você quer manter o comprimento de cada linha em uma
consulta <= 100 caracteres. Isto facilita a leitura de suas consultas. Por exemplo,
verifique esta consulta com uma linha com >100 caracteres:
SELECT CASE WHEN genre = 'horror' THEN 'Will not watch' WHEN genre =
'documentary' THEN 'Will watch alone' ELSE 'Watch with others' END AS
Watch_category, COUNT(
SELECT CASE WHEN genre = 'horror' THEN 'Will not watch' WHEN genre =
'documentary' THEN 'Will watch alone' ELSE 'Watch with others' END AS
Watch_category, COUNT(
Esta consulta é difícil de ler e igualmente difícil de solucionar ou editar. Agora,

aqui está uma pergunta onde nos mantemos fiéis à regra <= 100 caracteres:
Agora é muito mais fácil entender o que você está tentando fazer com a cláusula
SELECT. Claro, ambas as consultas funcionarão sem problemas, pois o recuo
não importa em SQL. Mas o recuo adequado ainda é importante para manter as
linhas curtas. E será valorizado por qualquer pessoa que ler sua consulta,
inclusive você mesmo!
Comentários multi-linha
Se você fizer comentários que ocupem várias linhas, você pode usar -- para cada
linha. Ou, se você tiver mais de duas linhas de comentários, pode ser mais limpo
e mais fácil é usar /* para iniciar o comentário e */ para fechar o comentário. Por
exemplo, você pode usar o -- método como abaixo:
-- Date: September 15, 2020 -- Analyst: Jazmin Cisneros -- Goal: Count the
number of rows in the table SELECT COUNT(*) number of rows -- the * stands
for all so count all FROM table
-- Data: 15 de setembro de 2020 -- Analista: Jazmin Cisneros -- Objetivo: Conta
o número de linhas na tabela SELECT COUNT(*) número de linhas -- o *
representa todos, portanto, conte todos da tabela SELECT COUNT(*)
Ou, você pode usar o método /* */ como no exemplo:

/* Date: September 15, 2020 Analyst: Jazmin Cisneros Goal: Count the number
of rows in the table */ SELECT COUNT(*) AS number_of_rows -- the * stands for
all so count all FROM table
/* Data: 15 de setembro de 2020 Analista: Jazmin Cisneros Goal: Conta o
número de linhas na tabela */ SELECT COUNT(*) AS number_of_rows -- o *
representa todos, portanto conte todos da tabela */ SELECT COUNT(*)
Em SQL, não importa qual método você usa. A SQL ignora os comentários,
independentemente do que você usa: #, --, ou /* e */. Portanto, depende de você
e de sua preferência pessoal. O método /* e */ para comentários de várias linhas
geralmente parece mais limpo e ajuda a separar os comentários da consulta.
Mas não há um método certo ou errado.
Editores de texto SQL
Ao ingressar em uma empresa, você pode esperar que cada empresa utilize sua
própria plataforma SQL e dialeto SQL. A plataforma SQL que eles usam (por
exemplo, BigQuery, MySQL ou SQL Server) é onde você escreverá e executará
suas consultas SQL. Mas tenha em mente que nem todas as plataformas SQL
fornecem editores de scripts nativos para escrever código SQL. Os editores de
texto SQL fornecem uma interface onde você pode escrever suas consultas SQL
de uma maneira mais fácil e codificada por cores. Na verdade, todo o código com
o qual temos trabalhado até agora foi escrito com um editor de texto SQL.
Exemplos com o Sublime Text
Se sua plataforma SQL não tiver codificação por cores, você pode pensar em
usar um editor de texto como Sublime Text ou Atom. Esta seção mostra como o
SQL é exibido no Sublime Text. Aqui está uma consulta no Sublime Text.
Com o Sublime Text, você também pode fazer edições avançadas como a
eliminação de travessões em várias linhas ao mesmo tempo. Por exemplo,
suponha que sua consulta, de alguma forma, tivesse recuos nos lugares errados
e tivesse este aspecto:
Isto é realmente difícil de ler, então você vai querer eliminar esses travessões e
começar de novo. Em uma plataforma SQL regular, você teria que ir em cada
linha e pressionar BACKSPACE para apagar cada travessão por linha. Mas no
Sublime, você pode se livrar de todos os travessões ao mesmo tempo,
selecionando todas as linhas e pressionando Command (ou CTRL em Windows)
+ [. Isto elimina os travessões de todas as linhas. Em seguida, você pode
selecionar as linhas que deseja recuar (isto é, linhas 2, 4 e 6) pressionando a
tecla Command (ou a tecla CTRL no Windows) e selecionando essas linhas.
Depois, mantendo pressionada a tecla Command (ou a tecla CTRL no Windows),
pressione ] para recuar as linhas 2, 4, e 6 ao mesmo tempo. Isto limpará sua
consulta e fará com que ela se pareça com isto:
O Sublime Text também suporta expressões regulares. Expressões regulares
(ou regex) podem ser usadas para procurar e substituir padrões de string em
consultas. Não falaremos aqui sobre as expressões regulares, mas talvez você
queira aprender mais sobre elas por conta própria, pois são uma ferramenta
muito poderosa.

Semana 3

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Semana 3

Enviado por

Direitos autorais:

Formatos disponíveis

Semana 3

Tudo sobre bancos de dados

Os metadados são extremamente importantes quando se trabalha com bancos

A seguir, você aprenderá como obter dados de um banco de dados ou de outra

Recursos de banco de dados

Os bancos de dados são ferramentas essenciais para os analistas de dados. Eu

Bancos de dados em análise de dados

Banco de dados relacional

Um banco de dados relacional é um banco de dados que contém uma série de

Em uma tabela não-relacional, você encontrará todas as variáveis possíveis que

A chave para os banco de dados relacionais

Em contraste, uma chave estrangeira é um campo dentro de uma tabela que é

SQL? Você está falando minha língua

Os bancos de dados utilizam uma linguagem especial para se comunicar,

Inspecionando um conjunto de dados: Um tour prático

Antes de iniciar uma análise, é importante inspecionar seus dados para

• Os dados não estão lá (você tem dados de sanduíche, mas precisa de

Você é um analista de dados que trabalha para uma empresa de sorvetes. A

1. Qual é o sabor mais popular de sorvete?

Pergunta 1: Qual é o sabor mais popular de sorvete?

Clique na guia sabores em sua planilha para visualizar os dados relevantes. A

Pergunta 2: Como a temperatura afeta as vendas?

Pergunta 3: Como os fins de semana e feriados afetam as vendas?

Pergunta 4: Como a rentabilidade difere para novos clientes em relação aos

Seu conjunto de dados não contém dados de vendas relacionados a novos

Ao trabalhar em projetos analíticos, você nem sempre terá à sua disposição

Apesar das limitações de seu conjunto de dados, ainda é possível oferecer às

Agora que você entende as diferentes formas de organizar os dados em um banco

Os metadados de uma mensagem de e-mail incluem o tema, remetente,

Também incluiria o autor e título do livro. A seguir são os metadados estruturais

Os metadados são tão importantes quanto os próprios

Independentemente de você estar trabalhando com uma grande ou pequena

Elementos dos metadados

Antes de analisar exemplos de metadados, é importante entender que tipo de

Quem criou e quando

De onde vieram os dados e quando foram criados? É recente, ou já existe há muito

Quem o modificou pela última vez e quando

Foram feitas algumas alterações nos dados? Em caso afirmativo, as modificações

Quem pode acessá-los ou atualizá-los

Exemplos dos metadados

No mundo digital atual, os metadados estão em toda parte, e está se tornando

Quando um e-mail é enviado ou recebido, há muitos metadados visíveis, como

Planilhas e documentos já estão preenchidos com uma quantidade considerável

Normalmente, se você clicar com o botão direito do mouse em qualquer arquivo

Dados como você os conhece

Usando metadados como analista

Metadados e repositórios de metadados são ferramentas muito poderosas na

Megan: Diversão com metadados

Meu nome é Megan, e sou líder de medição de agências aqui no Google.

É uma parte importante do processo de descoberta de qualquer projeto de análise,

Trabalhar com mais fontes de dados

Importação de dados de planilhas e bancos de dados

Vamos começar selecionando um arquivo para depois importar.

Em seguida, vamos em fazer o upload de um arquivo.

Navegue até ela, abra e insira como uma nova planilha.

Além disso, se estiver planejando trabalhar com o conjunto de dados, você

Em seguida, abra uma nova planilha e importe o arquivo, selecionando Arquivo,

Em seguida, faça upload do seu arquivo e selecione importar dados.

Isso classificará todas as colunas de A a Z por linha com a coluna selecionada

Dessa forma, linha A, cidade, estados, representante de vendas e autopeças não

Depois na classificação por menu suspenso, selecione estado e a ordem de

Finalmente, selecione Classificar.

Agora podemos pesquisar os dados para facilmente encontrar um representante

Em seguida, selecione ok.