Você está na página 1de 52

© O(s) Autor(es), sob licença exclusiva da APress Media, LLC, parte da Springer Nature 2023

J. Jolly, Microsoft Power BI Data Analyst Certificação Companion, Série Complementar de Estudo de
Certificação
https://doi.org/10.1007/978-1-4842-9013-2_4

4. Limpe, transforme e carregue os dados

Jé ssica Jolly1
(1) Evanston, IL, EUA
Este capítulo aborda tópicos de exame sobre limpeza de dados, transformação
de dados e carregamento desses dados no Power BI, onde podem ser analisa-
dos. Abordamos o Power Query Editor, a linguagem M subjacente às
transformações e vários tópicos relacionados à qualidade dos dados.

Aceder ao Editor do Power Query

Depois de iniciar o procedimento Obter dados na Área de Trabalho, o PQE


(Editor do Power Query) será aberto em uma nova janela separada. Isso é in-
tencional — as duas ferramentas devem trabalhar lado a lado. Enquanto es-
tiver ativo na janela PQE, você pode minimizar a janela Área de trabalho.

O que é o Power Query Editor?

Vamos definir o cenário. Você tem um projeto que requer que você colete da-
dos de uma variedade de fontes. Você não originou (necessariamente) esses
dados e, portanto, eles provavelmente precisam de alguma modelagem antes
que você possa usá-los. Ele pode ter colunas que você não precisa, ou pode es-
tar faltando colunas que você precisa. Ele pode não ter os cálculos necessários
ou os dados podem não estar no formato correto para você executar cálculos
neles. Ele pode ter erros ortográficos, abreviações inconsistentes, linhas em
branco e valores nulos. Qualquer ou todas essas coisas são invariavelmente
verdadeiras para a maioria das fontes de dados. Você pode voltar às fontes e
corrigi-las? Talvez, mas muito provavelmente não. Se os dados vêm de um
banco de dados, eles foram criados e são usados por muitas pessoas difer-
entes. O proprietário do banco de dados provavelmente não alterará os dados
para atender aos seus requisitos específicos. O Editor do Power Query para o
resgate!
Acho que o Power Query Editor é a melhor ferramenta que a Microsoft já criou! E
você pode usá -lo por meio do Power BI Desktop, do Excel ou do Serviço do Power BI.
O Editor do Power Query não é um aplicativo autô nomo; ele deve ser acessado por
meio do Power BI Desktop ou Serviço ou por meio do Excel. Você pode abri-lo de duas
maneiras:

1)Obter dados na guia Página Inicial


2)Transforme dados na guia Página Inicial (conforme mostrado na Figura
4-1)

Figura 4-1 Acessando o Editor do Power Query usando dados de transformação

O PQE permite que você pegue os dados brutos (na forma de consultas) e trabalhe
com eles para realizar todas as alteraçõ es necessá rias para fazê -los funcionar para
você . Que tipos de mudanças?

1.Excluindo, mesclando, combinando e dividindo colunas


2.Excluindo linhas superiores, inferiores e alternativas
3.Alterando o tipo de dados de uma coluna
4.Combinando consultas (mesclando, acrescentando)
5.Duplicando ou referenciando uma consulta
6.Renomeando e documentando colunas, consultas e etapas
7.Substituindo valores, espaços em branco e erros
8.Adicionando novas colunas
9.Adicionando novos cálculos

Esta não é uma lista abrangente de todos os tipos de alterações (chamadas


transformações) que você pode realizar, mas para passar no exame PL-300,
você deve estar familiarizado com todas as transformações anteriores.
Use as ferramentas da faixa de opções para especificar as transformações
que deseja executar para cada consulta. Os cliques do mouse são capturados e
gravados em etapas individuais, chamadas de Etapas Aplicadas. (Se você es-
tiver familiarizado com macros no Excel, esse processo parecerá familiar.)
Cada etapa é "traduzida" em M e é visível usando a Barra de Fórmulas (veja a
Figura 4-6 para obter um exemplo).

Para se tornar um "transformador" muito proficiente (desculpe, não pode-


ria me ajudar!), você precisa estar muito familiarizado com os extensos co-
mandos disponíveis. Você não precisa saber escrever M do zero, mas algumas
habilidades básicas de M são úteis no exame (e na vida real!).

DicaAtive a Barra de Fórmulas na guia Exibir. Deixe-o ligado porque é a


maneira mais rápida de absorver M durante suas transformações. Cada ação
executada usando a faixa de opções é registrada em M e fica visível na Barra
de Fórmulas, como você pode ver na Figura 4-2.

Figura 4-2 A barra de fórmulas visível

Vamos examinar uma afirmaçã o M, usando um exemplo simples mostrado nas


Figuras 4-3, 4-4 e 4-5. Vou dividir uma coluna em duas colunas.
Figura 4-3 Coluna a ser dividida
Figura 4-4 Divisão da coluna por delimitador

E aqui estã o as duas colunas resultantes:

Figura 4-5 Uma coluna dividida em duas


Agora que temos o exemplo configurado, vamos examinar o M que foi gerado por
essa transformaçã o, mostrado na Figura 4-6.

Figura 4-6 Anatomia de uma amostra M

A Língua M

Você nã o precisa ser capaz de escrever M do zero, mas conhecer alguns fatos bá sicos
sobre M é ú til:

1.M é uma linguagem separada do DAX. Ele é usado no PQE, não na área de
trabalho.
2.M diferencia maiúsculas de minúsculas. Preste atenção em maiúsculas e
minúsculas!
3.M é uma linguagem funcional. Use uma função para executar uma ação.
4.Uma função M tem argumentos (assim como no Excel) que são separados
por vírgulas.
5.Em M, quando você vê chaves "{}", isso indica uma lista.
6.Para ver o script inteiro que você escreveu na consulta em que está tra-
balhando, abra o Editor Avançado na guia Página Inicial.

Desfazendo e refazendo uma etapa

Uma das primeiras coisas que procuro em qualquer aplicativo é o recurso Desfazer.
Isso só me faz sentir mais segura. Mas no Editor do Power Query, você pode procurar
durante todo o dia e nã o encontrará um recurso Desfazer na faixa de opçõ es. A
maneira de corrigir erros é trabalhando com a Etapa Aplicada relevante. Cada
etapa terá um X vermelho se você passar o mouse sobre ela, como você pode ver na
Figura 4-7. Mas nã o se apresse: o Power Query Editor é muito flexível. Você pode
refazer uma etapa que tenha um ícone de engrenagem ao lado. Você també m pode
reorganizar as etapas arrastando-as para cima ou para baixo na lista.
Figura 4-7 Desfazendo ou refazendo uma etapa

Nomeação e documentação

Além de os dados não atenderem aos seus requisitos, muitas vezes não têm
nomes amigáveis. Se sua fonte for um banco de dados, você verá nomes de
coluna prefixados com o termo "DIM" ou "FACT" — mais sobre esses prefixos
no Capítulo 5. Você deve renomear colunas e consultas com nomes que façam
sentido para seus leitores de relatório. Duas colunas na mesma consulta não
podem ter o mesmo nome, mas você pode ter colunas do mesmo nome em
consultas diferentes. Na verdade, você deve certificar-se de que suas colunas
principais tenham os mesmos nomes em consultas diferentes. Isso tornará
mais fácil para você relacioná-los no modelo de dados e mais fácil para o leitor
de relatórios saber que eles representam o mesmo valor.

Você já deve ter visto nomes onde há duas palavras unidas por um sublin-
hado (Name_Name2). Você deve ter espaços nos nomes de suas colunas e con-
sultas? Os espaços são mais familiares para seus usuários, mas se você tiver
um espaço no nome da tabela, sempre terá que colocá-lo entre aspas simples
(por exemplo, 'Nome do nome2').

DicaAdquira o hábito de sempre colocar o nome da sua tabela entre aspas


simples — então, quando um nome de tabela exigir aspas simples, você não
ficará se perguntando o que está errado.
Se houver uma convenção de nomenclatura em sua organização, siga-a. Se
não houver uma convenção de nomenclatura, estabeleça uma. Os nomes de
coluna e consulta serão consistentes.

Renomeie todas as colunas na consulta como uma Etapa Aplicada. Dessa


forma, quando você procurar a etapa em que renomeou uma(s) coluna(s), ela
estará em uma etapa. Não importa se você faz isso no início ou no final do seu
processo, mas como você pode estar criando e excluindo colunas, você pode
querer salvá-lo até perto do fim.

Você també m pode renomear etapas individuais, algo que eu aconselho. À s vezes, a
lista de Etapas Aplicadas é bastante longa — será muito mais fá cil encontrar uma
etapa específica se ela for nomeada descritivamente. Você pode nomear uma etapa
clicando com o botã o direito do mouse nela e escolhendo Renomear. O ú nico tipo de
etapa que eu sempre renomeio é aquele em que eu filtrei alguns dados. Dessa forma,
quando entro em pâ nico, posso facilmente encontrar esse passo e desfazê -lo ou
refazê-lo, como mostrado nas Figuras 4-8, 4-9 e 4-10.
Figura 4-8 Filtrando dados
Figura 4-9 Renomeando a etapa resultante
Figura 4-10 Muito mais fácil de encontrar quando em pânico

Enquanto você está nomeando as coisas, é um bom momento para documentar sua
consulta e suas etapas. No painel Etapas Aplicadas (à direita da janela do Editor
do Power Query), há um ró tulo de hiperlink Todas as Propriedades. Clique no
hiperlink e insira uma descriçã o da consulta, conforme mostrado na Figura 4-11.
Bônus: Quando você trazer a consulta para a área de trabalho, a descriçã o
aparecerá na dica de ferramenta da tabela!
Figura 4-11 Documentando uma consulta

Ainda mais importante, você pode documentar uma etapa específica, conforme
mostrado na Figura 4-12. Clique com o botã o direito do mouse na etapa e escolha
Propriedades. Insira uma descriçã o do que você fez e por quê .

Figura 4-12 Documentando uma etapa

Bônus: Se você adicionar uma descrição a uma etapa, um pequeno círculo


com um "i" aparecerá ao lado dele na lista Etapas Aplicadas.

DicaEu sempre documento etapas quando filtro dados, removo colunas ou


faço outras alterações que podem não ser óbvias para mim ou para um colega
depois de algum tempo.
Há uma velha expressão: um ponto no tempo salva nove. Isso realmente se
aplica à documentação — faça isso enquanto estiver durante o trabalho. Você
(ou seus colegas) serão gratos mais tarde!

DicaQualquer documentação adicionada ficará visível depois de aplicar as


alterações (consulte "Carregando suas consultas (ou não)" abaixo).

Qualidade e Distribuição de Dados

Se você estiver se conectando a uma fonte de dados com a qual nã o está familiarizado,
nã o saberá necessariamente o que esperar. Os dados terã o muitos erros? Haverá
muitos valores em branco ou nulos? Inconsistê ncias? Todos esperamos que os dados
sejam perfeitos "prontos para uso", mas esse geralmente nã o é o caso, e é por isso que
uma das suas primeiras etapas deve ser habilitar as ferramentas de visualização
de dados na guia Exibir, conforme mostrado na Figura 4-13. Especificamente, você
deve habilitar:
Qualidade da coluna
Distribuição de colunas
Perfil da coluna

Figura 4-13 Ativando a criação de perfil de coluna

Cada um desses recursos introduzirá novos elementos ao seu espaço na


tela, então talvez você não queira esses recursos o tempo todo. Olhar para eles
quando você traz os dados pela primeira vez é uma boa prática; Em seguida,
você pode desativá-los depois de avaliar seus dados.

Aqui estã o algumas sugestõ es de coisas para procurar nestas caixas:

1.Há valores vazios ou em branco em uma coluna? Decida qual será a sua
estratégia para preencher essas lacunas. Você quer colocar um "0" ou um
"N/A" ou um "branco"? Usar Substituir Valores é uma maneira simples
de fazer essas alterações, mas certifique-se de saber se o valor vazio está
realmente em branco ou é nulo. Espaços em branco e nulos são tratados
de forma diferente no Editor do Power Query.
2.Qual é a proporçã o de valores distintos para valores únicos? Distinct indica o
nú mero de valores diferentes presentes na coluna. (Se você tiver uma lista {1, 2,
3, 4}, haverá quatro valores distintos.) Unique indica o nú mero de valores que
nã o se repetem. (Em uma lista {1, 1, 2, 2, 2, 3, 4, 4}, há apenas um valor exclusivo.)
Uma proporçã o de um para um (ou perto de 1/1) significa que esta coluna tem
cardinalidade muito alta (mostrada na Figura 4-14) — um termo que explicarei
abaixo. Uma proporçã o de 1 para 0 ou 1/0 é boa (mostrada na Figura 4-15). Isso
significa que cada valor é repetido pelo menos uma vez.

Figura 4-14 Exemplo de uma coluna de alta cardinalidade


Figura 4-15 Exemplo de uma coluna de baixa cardinalidade

3.O que é a distribuição de valores? Você vê diferentes tipos de dados na


mesma coluna (ou seja, texto e numérico)? Parte do seu trabalho será
tornar os valores em uma coluna um tipo consistente (um texto ou
número).

Depois de digitalizar seus dados e anotar quaisquer á reas com "problemas", você
pode retornar à guia Exibir e desativar as ferramentas de Visualização de
Dados. Você sempre terá a barra de atalhos Profile visível, logo abaixo dos
cabeçalhos de coluna, conforme mostrado na Figura 4-16.
Figura 4-16 A criação de perfil de dados simplificada está sempre disponível

Chaves e IDs

Faz sentido intuitivo que cada coleção de dados tenha algo que identifique ex-
clusivamente cada linha (ou ponto de dados). Caso contrário, como você difer-
enciaria as linhas? Ou identificar duplicatas? Uma coluna que contém um
identificador exclusivo é chamada de "chave" na terminologia do banco de da-
dos. Uma chave pode ser nativa para os dados (por exemplo, um número de ID
de funcionário em uma tabela com informações do funcionário). Também
pode ser algo que o designer de banco de dados adicionou.
Independentemente de onde a chave vem, ela é um identificador exclusivo
para os dados e deve haver um presente para que o modelo de dados seja
construído.

Se você estiver extraindo seus dados de um data warehouse ou de um banco de


dados, uma coluna que é o identificador exclusivo geralmente terá a palavra "chave"
em seu título. Mas se você nã o vir uma coluna com "chave" em seu nome, abra as
ferramentas de Visualização de Dados e procure uma coluna com uma
proporçã o de 1/1 para distinto/exclusivo: é provável que seja um campo "chave",
como mostra a Figura 4-17.
Figura 4-17 Um bom exemplo de uma coluna de chave

Se você tiver duas colunas com uma proporção de 1/1, examine cada uma
delas para ver qual você deve manter. Uma coluna-chave tem (por definição)
alta cardinalidade, o que significa que será muito "caro" "armazenar". Detesto
ficar te adiando, mas vamos chegar à cardinalidade. (Ele tem sua própria
seção!)

Quando uma coluna de chave está presente em outra tabela, ela é chamada
de "chave estrangeira". Quando está em sua própria tabela "home", é chamado
de "chave primária". Você pode não ver esses termos diretamente no exame,
mas os conceitos que eles representam são críticos. Você pode conectar duas
tabelas juntas combinando as colunas de chave primária e estrangeira. Se
estivéssemos trabalhando em um banco de dados, chamaríamos esse processo
de "junção". No Power BI, o termo "ingressar" não é usado; em vez disso, cri-
amos "relacionamentos". Você precisa ter relações entre tabelas para que o
modelo de dados funcione. (Ver Capítulo 5.)

Como parte do processo de transformação, você deve garantir que cada


consulta tenha uma coluna que sirva como "chave". Simplifique esta coluna o
máximo que puder. Por exemplo, se a ID tiver dois componentes (1234-56789)
e apenas um dos componentes puder servir como ID, divida a coluna e reduza
a chave até o número mínimo de caracteres para identificar exclusivamente
cada linha.

Para referência futura: chaves nativas e substitutas

Uma chave nativa é algo que a empresa (ou o proprietário dos dados) usa
para identificar exclusivamente um ponto de dados, por exemplo, ID de
funcionário para funcionários.

Uma chave substituta é uma ID exclusiva que é adicionada aos dados por um
proprietário de banco de dados. A vantagem de uma chave substituta é que
ela é independente do negócio, portanto não muda, mesmo que o negócio
mude sua metodologia de identificação.

Por exemplo, o departamento de RH atribui a um funcionário o número de


identificação XYZ123. O administrador do banco de dados atribui ao mesmo
funcionário o número de ID 123456. Ambos os IDs são exclusivos, mas o ID
123456 é a chave substituta e nunca muda, mesmo que o departamento de RH
altere sua taxonomia de ID para 123XYZ.

Os tipos de dados são importantes!

Quando ensinei Excel para iniciantes, um dos pontos que enfatizei foi não deixar o tipo
de dados de uma coluna como Geral. Isso é igualmente (se nã o mais) verdadeiro no
Power BI. O tipo de dados errado não é uma decisã o neutra em termos de rede. Há
algumas regras que você precisa seguir ao atribuir um tipo de dados a uma coluna:

1.A moeda deve ser armazenada como um tipo decimal fixo. Esse tipo de

dados armazena um número com quatro dígitos de precisão após o ponto


decimal.
2.Um tipo decimal fixo não é o equivalente a um tipo decimal.
3.Um tipo decimal armazena até 15 dígitos, incluindo números antes e de-
pois da casa decimal. Por exemplo, se eu tiver um número de 13 dígitos
antes da casa decimal, o tipo de dados Decimal armazenará apenas dois
dígitos após a casa decimal, resultando em uma perda de precisão.
4.As datas devem ser armazenadas como um tipo de dados Data. Se você
precisar armazenar um valor para Time, armazene-o em uma coluna sep-
arada. (Não se preocupe com a formatação de uma coluna de data — isso
acontece no Power BI Desktop.)
5.Se você souber que seu arquivo PBIX será consumido por algué m em uma regiã o
diferente do mundo, deverá atribuir Data, Decimal Fixo e Decimal usando a
opçã o Locale, mostrada na Figura 4-18. Esse recurso converterá corretamente
uma data do formato dos EUA (Mê s/Dia/Ano) para o formato resto do mundo
(Dia/Mê s/Ano) automaticamente. Ele fará o mesmo para Decimal Fixo e
Decimal — alterna a casa decimal para uma vírgula e vice-versa — tudo sem
qualquer intervençã o manual.

Figura 4-18 Acessando usando localidade no menu Tipo de dados

Depois de acessar Usando localidade, defina o tipo de dados como normal,


conforme mostrado na Figura 4-19.
Figura 4-19 Definir o tipo de dados como normal

6.Se você puder armazenar um valor como um Número Inteiro, faça isso.

Um número inteiro será a forma "mais barata" de armazenar valores.


7.Se você puder evitar armazenar um valor como um valor de texto, faça

isso. Os valores de cadeia de caracteres (texto) são a maneira mais "cara"


de armazenar valores.
8.Se você tiver duas colunas em duas consultas diferentes que serão usadas
para vincular as duas tabelas (quando chegarmos ao Power BI Desktop),
verifique se as duas colunas têm o mesmo tipo de dados. (Como men-
cionado anteriormente, é bom se eles tiverem o mesmo nome também,
mas isso não é estritamente necessário.)

Motivo de reflexão

Um colega me disse que uma vez economizou 30% em seu tamanho geral do
modelo de dados alterando uma coluna do tipo de dados de texto para o tipo
de dados de número inteiro. De fato, os tipos de dados são importantes!

Seja deliberado e intencional em suas escolhas de tipo de dados. Verificar


os tipos de dados deve ser a última coisa que você faz antes de concluir suas
transformações de consulta. Fique atento às etapas extras de Tipo Alterado.
Você geralmente está seguro removê-los como eles aparecem em sua lista de
etapas. Na maioria das vezes são desnecessárias. (Há sempre exceções. Se o
Tipo Alterado for necessário para executar uma etapa abaixo dele, não o ex-
clua. Você interromperá as etapas subsequentes.)
Para referência futura: dobramento de consulta

Este é o recurso que você não sabe que precisa até quebrá-lo. Quando você se
conecta a uma fonte de dados que é alimentada por algo (ou seja, um servi-
dor), você pode "dobrar" o trabalho de fazer as transformações de volta para
esse mecanismo. Por exemplo, se você se conectar a uma fonte de dados no
SQL Server, há uma excelente chance de que o servidor ofereça suporte à do-
bragem. Se assim for, o PQE vai dobrar as transformações para o servidor
para executá-las e, assim, fazê-las mais rapidamente. (Os servidores normal-
mente têm mais energia do que nossos laptops.) Mas existem algumas
transformações que quebrarão o dobramento da consulta, e alterar um tipo de
dados é uma delas (geralmente). É por isso que eu disse que você deve excluir
todas as etapas gratuitas de Tipo Alterado que o PQE cria. É também por isso
que eu disse que alterar os tipos de dados deve ser a última etapa que você ex-
ecuta em sua consulta. Todas as etapas anteriores serão dobradas, agilizando o
processo.

Há fontes que não têm "mecanismos" subjacentes: Excel, CSV e PDF vêm à
mente. Quando uma consulta se origina de um desses tipos de fontes, não há
dobramento de consulta. Uma escola de pensamento é "não se preocupe em
quebrar a dobragem de consultas nessas consultas". Mas discordo.

DicaPratique os mesmos bons hábitos, independentemente de o tipo de con-


sulta suportar dobramento. Então você não vai quebrar acidentalmente dobra
quando está disponível por causa de práticas desleixadas.
Como saber se o dobramento de consultas está acontecendo (ou nã o)? No painel
Etapas aplicadas, selecione uma etapa e clique com o botã o direito do mouse. Se a
Consulta Nativa de Exibição estiver esmaecida, o dobramento da consulta
não está acontecendo. Na Figura 4-20, o dobramento de consultas está
acontecendo.
Figura 4-20 O dobramento da consulta está ocorrendo nesta etapa

Se você acha que deveria ser, volte a subir sua lista de etapas até encontrar a etapa
onde ela foi quebrada. (Lembre-se, ele nunca funcionará com Excel, CSV ou PDF.) Se
Exibir Consulta Nativa for uma opçã o ativa, clique nela. Em seguida, será aberta
uma janela na qual você poderá ver o M traduzido para o idioma "nativo" do servidor
de origem, conforme mostrado na Figura 4-21.
Figura 4-21 Exemplo de uma consulta nativa

Uma nota final: o dobramento de consulta provavelmente não aparecerá


no PL-300, mas embora eu queira ajudá-lo a passar no exame, também quero
que você se torne um profissional qualificado do Power BI. Saber como usar
o dobramento de consultas para acelerar suas transformações é uma habili-
dade que você deve ter.

Sua chance de praticar

Veja os 30 dias de consulta de Alex Powers no YouTube. É uma ótima oportu-


nidade para entender quais passos quebram (e não) a dobra.

Substituindo dados

Espaços em branco e nulos

O Editor do Power Query trata os valores Nulo e em Branco de forma diferente. Para
ambos os valores, use a mesma té cnica para substituí-los: Substituir valores
conforme mostrado nas Figuras 4-22 e 4-23.
Figura 4-22 Substituindo valores em uma coluna
Figura 4-23 Para valores nulos, certifique-se de digitar "null"

Para valores em branco, deixe a caixa Valor a ser encontrado vazia.

Erros

Os erros sã o um pouco mais complicados. Se você tiver a sorte de ter todos os erros
aparecendo nas primeiras 1000 linhas, você pode revisá -los e determinar o problema.
Você pode ver a origem do erro clicando na cé lula com o erro, conforme mostrado na
Figura 4-24.

Figura 4-24 Exibindo o motivo do erro

Você també m pode clicar no hiperlink para o erro. Isso resultará em uma nova
etapa sendo adicionada, que pode nã o ser necessá ria para o diagnó stico. Se você
clicar com o botã o direito do mouse na barra de visualização Data Quality,
haverá um menu contextual específico para lidar com erros, conforme mostrado na
Figura 4-25.
Figura 4-25 Várias opções para lidar com erros

Você pode remover ou substituir os erros neste menu. Mas e se você suspeitar que
tem erros em linhas que nã o estã o incluídas nas primeiras 1000 linhas? Pode definir o
Power Query Editor para criar o perfil de todas as linhas dos seus dados. Há uma
caixa suspensa no canto inferior esquerdo da tela que você pode alternar, como
mostrado na Figura 4-26.

Figura 4-26 Alterando o comportamento de criação de perfil


Depois que o comportamento de criaçã o de perfil for alterado, a visualização
da Qualidade de Dados refletirá todas as linhas. Se houver erros, eles serã o
destacados na categoria Erro, mostrada na Figura 4-27.

Figura 4-27 Depois de alterar o comportamento de criação de perfil

Este exemplo não tem erros, mas se tivesse, eles seriam refletidos na cate-
goria Erro na espiada Qualidade de Dados.
Se os erros nã o estiverem presentes nas primeiras 1000 linhas, como você pode
determinar como corrigi-los? Use a opçã o Manter erros no menu de contexto de
visualização da Qualidade de Dados, conforme mostrado na Figura 4-28.

Figura 4-28 Escolha Manter erros

Agora você terá uma consulta apenas com os erros, como você pode ver na Figura
4-29. (Pode ser uma boa ideia duplicar a consulta primeiro se você quiser preservar a
consulta em seu estado original. A duplicaçã o de uma consulta é discutida abaixo.)
Figura 4-29 Agora apenas os erros são exibidos

Agora você pode diagnosticar os erros e tomar as medidas apropriadas


para corrigi-los.

Adicionando novos dados

Se ao menos as fontes de dados às quais nos conectamos tivessem todos os da-


dos de que precisávamos! Mas com muita frequência a(s) fonte(s) que você
está usando carece de algo importante. Existem dois tipos de novos dados que
pode criar no Editor do Power Query: uma nova coluna ou uma nova tabela.

Adicionando uma nova coluna

Há vá rias maneiras de criar novas colunas:

Coluna de Exemplos
Coluna personalizada
Coluna condicional
Coluna de índice
Coluna duplicada

A opçã o correta é a que executa com mais eficiê ncia a tarefa necessá ria. Por
exemplo, se você quiser adicionar uma nova coluna com o país "Estados Unidos",
poderá usar Coluna de Exemplos ou Coluna Personalizada. As Figuras 4-30 e
4-31 mostram ambos os mé todos.
Figura 4-30 Adicionando uma coluna a partir de exemplos

Figura 4-31 Adicionando uma coluna personalizada

Eu forneci esses dois exemplos para ilustrar que muitas vezes haverá
várias maneiras de executar a mesma tarefa. O método escolhido varia de
acordo com a sua compreensão de cada técnica e os requisitos da sua tarefa.

Adicionando uma nova consulta

Para criar uma nova consulta, você tem várias opções. Você pode criar uma
consulta em branco — essencialmente uma folha de papel em branco. Você
também pode duplicar uma consulta existente, algo que abordaremos em de-
talhes mais adiante neste capítulo.

Mantenha apenas o que você precisa

Digo aos meus alunos que o Editor do Power Query é muito indulgente. Ele
permitirá que você corrija ou altere facilmente uma etapa que você criou an-
teriormente no processo; pouquíssimas decisões são irreversíveis. Com isso
em mente, seja implacável ao olhar para suas perguntas. Não precisa de uma
coluna? Removê-lo. Não precisa de uma consulta inteira, mas apenas de parte
dela? Combine-o com outra consulta, como uma mesclagem ou acréscimo. Um
dos seus principais objetivos é simplificar e agilizar os dados antes de trazê-los
para o Power BI Desktop. Não traga uma consulta ou uma coluna sobre "ape-
nas por precaução". Você sempre pode voltar para isso.

Combinando consultas

Acrescentar

Imagine um cená rio em que você tenha 12 planilhas diferentes do Excel, cada uma
para um mê s diferente no ano. Você traz cada um deles para o PQE, e agora você tem
12 consultas diferentes. Você tem uma oportunidade perfeita para agilizar as
consultas. Você pode optar por anexar todos eles em uma nova consulta (por exemplo,
Anexar consultas como novas) ou anexá -los a uma consulta existente (por
exemplo, anexar fevereiro à consulta de janeiro e assim por diante). Nas Figuras 4-32,
4-33 e 4-34, há quatro consultas que serã o combinadas em uma consulta separada.
(Nestes exemplos, estou usando Append, mas essas observaçõ es se aplicam
igualmente a Merge.)

Figura 4-32 Anexando consultas como uma nova consulta


A seguinte caixa de diá logo será aberta:

Figura 4-33 Anexando várias consultas em uma nova

Figura 4-34 A nova consulta

Mesclagem

A mecânica de mesclar duas consultas é como as que você usa ao acrescentar,


com uma diferença fundamental. Ao acrescentar, é uma boa ideia garantir
que as estruturas de ambas as consultas (número, nome, tipos de dados de col-
unas) sejam as mesmas. Com uma mesclagem, é importante entender exata-
mente como você deseja mesclar as duas consultas. Existem sete padrões de
junção diferentes, que explicarei a seguir.

A junçã o padrã o é uma junçã o externa esquerda (Figura 4-35). Em uma junçã o
externa esquerda, os registros em uma consulta sã o comparados com os registros em
uma segunda consulta. Como uma imagem pode substituir 1000 palavras, estou
ilustrando cada tipo de junçã o com um diagrama simples.

Figura 4-35 Junção externa esquerda: todas as linhas da esquerda, correspondendo à direita

O pró ximo tipo mais comum de junçã o é uma junçã o externa direita. Este é o
inverso de uma junção externa esquerda (Figura 4-36).

Figura 4-36 Junção externa direita: Todas as linhas da direita, correspondentes à esquerda

Em seguida, há uma junçã o externa completa (Figura 4-37). Esse tipo de junçã o
mescla as duas consultas independentemente das correspondê ncias.
Figura 4-37 Associação externa completa: todas as linhas de ambas as consultas

A junção externa completa (Figura 4-38) é muito eficaz para identificar onde duas
consultas nã o coincidem. O oposto direto da junçã o externa completa é a junção
interna.

Figura 4-38 Associação interna: somente as linhas presentes em ambas as consultas

A essa altura, você já deve ter descoberto o que vem a seguir: a antijunção
esquerda (Figura 4-39).

Figura 4-39 Anti-junção esquerda: somente linhas na Consulta A que não correspondem

Em seguida, a anti-junção direita (Figura 4-40).


Figura 4-40 Anti-junção direita: somente as linhas na Consulta B que não são correspondidas

Finalmente, a anti-junção completa (Figura 4-41).

Figura 4-41 Anti-junção completa: somente linhas em ambas as consultas que não são correspondidas

Duplicando uma consulta

No exemplo anterior, uma opçã o que você tem é duplicar uma das consultas e, em
seguida, anexar todas as outras consultas à duplicata. Ao duplicar uma consulta, você
está fazendo uma có pia exata, mostrada na Figura 4-42. Há outros momentos em que
a duplicaçã o de uma consulta é ú til, por exemplo, quando você precisa preservar a
consulta original como ela é .
Figura 4-42 Duplicando uma consulta

Uma questão de estilo

Muitas escolhas que você faz no Power Query Editor são questões de estilo. Ao
anexar arquivos, prefiro anexar (ou mesclar) todos eles em uma nova con-
sulta, deixando os originais como estão. Mas isso não é um "must-do".
Experimente diferentes métodos para que você possa escolher o certo em
cada circunstância.

Fazendo referência a uma consulta

Agora vamos pensar de outra forma. E se a consulta original tiver muitas Etapas
Aplicadas (transformaçõ es) e você ainda estiver trabalhando nela, mas precisar
copiar a consulta e fazer com que ela reflita todo o trabalho que você continua a fazer
na consulta original? Faça referê ncia à consulta original, conforme mostrado na Figura
4-43. Ele criará uma segunda versã o da consulta, mas todas as alteraçõ es feitas na
consulta original serã o transferidas em cascata para a segunda versã o.
Figura 4-43 Fazendo referência a uma consulta

Excluindo uma consulta

Você pode excluir uma consulta se nã o precisar dela, como mostra a Figura 4-44.
Figura 4-44 Excluindo uma consulta

Não é possível excluir uma consulta que está sendo usada em outra con-
sulta (por exemplo, se você a tiver anexado ou mesclado em outra consulta).

Trabalhando com alguns dados

Se seus dados tiverem milhões de linhas, você não precisará (ou quer) trabal-
har com todas as linhas para decidir sobre suas transformações. Ou você pode
não querer que certas linhas apareçam no relatório final. De qualquer forma,
você pode filtrar seus dados no PQE para limitar o que você está trabalhando.
A filtragem exclui linhas que não atendem às condições do filtro. Essas linhas
não aparecerão no relatório concluído. Se você quiser trabalhar apenas com
um subconjunto dos dados durante o processo de desenvolvimento do
relatório, lembre-se de remover as etapas nas quais você limitou as linhas
antes de publicar o relatório.

Apenas 1000 linhas?

No canto inferior esquerdo, o Editor do Power Query exibe o nú mero de colunas que
a consulta tem e quantas linhas ela escaneou (visualizadas) — até 1000 linhas. À
primeira vista, isso parece problemá tico, mas nã o é porque você nã o está realmente
transformando os dados agora. Você está escrevendo um script de transformaçõ es
que serã o executadas nos dados quando você carregar os dados na á rea de trabalho.
(Nã o se preocupe. Você nã o perdeu essa parte – ainda nã o chegamos lá .) Tudo o que
você precisa é de uma amostra representativa dos dados. A presunçã o é que 1000
linhas sã o suficientes para você entender a estrutura e o layout dos dados e tomar
decisõ es apropriadas. Se você precisar ver mais valores, poderá usar Filtros ➤
Carregar mais para ver até 1000 valores exclusivos em cada coluna, conforme
mostrado na Figura 4-45.
Figura 4-45 Usando o painel Filtros para ver todos os valores exclusivos em uma coluna

Mas há um problema: o painel Filtros nã o pode exibir mais de 1000 valores


exclusivos, como você pode ver na Figura 4-46.
Figura 4-46 Somente 1000 valores exclusivos podem ser exibidos

Se você tiver mais de 1000 valores exclusivos e precisar filtrar alguns, deverá usar
os filtros manuais para criar o filtro necessá rio, conforme mostrado na Figura 4-47.

Figura 4-47 Criando um filtro manual

Se nã o for possível filtrar sem ver todos os dados, você poderá rolar pelos dados,
mostrados na Figura 4-48.
Figura 4-48 Rolando pelos dados na janela Visualizar

Percorrer milhares de linhas de dados é tedioso na melhor das hipóteses e


impraticável na pior, e é por isso que trabalhar com dados representativos é
tão importante. Se os dados que você tem forem muito inconsistentes, talvez
seja necessário voltar à fonte para limpá-los antes de poder usar o Editor do
Power Query.

Depois de criar uma etapa para filtrar linhas, recomendo renomear e docu-
mentar essa etapa (veja anteriormente).

Para referência futura: Preparando seu trabalho para


o futuro

Se ao menos os dados permanecessem os mesmos. Se ao menos os usuá rios nunca


removessem ou adicionassem colunas a uma planilha do Excel. Muitas vezes nã o
temos muito controle sobre os dados com os quais trabalhamos; portanto, nunca
devemos assumir que nã o haverá mudanças. Aqui estã o apenas alguns dos tipos de
alteraçõ es que podem ocorrer:

1.As colunas são renomeadas, adicionadas ou excluídas.


2.Os arquivos são movidos, adicionados ou excluídos.

Quando você está trabalhando com um banco de dados, os dados provavel-


mente são muito mais estáveis. Mas se sua fonte de dados for o Excel, você
terá uma probabilidade maior de ter colunas alteradas. Você precisa criar seu
script de transformação de tal forma que, se uma alteração acontecer, seu
script possa lidar com isso sem quebrar. Isso é chamado de preparação para o
futuro. O primeiro passo é certificar-se de que sua Barra de Fórmulas esteja
visível e leia o M para cada etapa criada.

Excluindo e incluindo colunas


Ao remover vá rias colunas, dependendo de como você faz sua seleçã o (como Remover
colunas, Remover outras colunas, Selecionar colunas), o M será construído de
forma diferente. Na Figura 4-49, uma coluna será removida. Na Figura 4-50, somente
colunas explicitamente nomeadas serã o mantidas.

Figura 4-49 Esta etapa removerá uma coluna chamada "Número do fornecedor"

Figura 4-50 Esta etapa manterá apenas as colunas explicitamente nomeadas

Na Figura 4-49, uma coluna foi excluída explicitamente usando Remove


Columns. O que acontece se, da próxima vez que os dados forem atualizados,
outra coluna for adicionada? A nova coluna aparecerá no relatório? Neste ex-
emplo, a resposta é sim porque não foi especificamente excluída.

Na Figura 4-50, três colunas foram incluídas especificamente usando


Select Columns. O que acontece se, da próxima vez que os dados forem atual-
izados, outra coluna tiver sido adicionada à fonte de dados? A nova coluna
aparecerá no relatório? A resposta é: não, não o fará porque não foi especifica-
mente incluído.

Existem muitas técnicas para escrever M para que ele seja flexível e possa
lidar com alterações nos dados de origem, quase todas as quais estão além do
escopo deste livro. Mas há vários bons livros que foram publicados em que
você aprende a preparar suas dúvidas para o futuro, que listarei no final do
capítulo. Para o PL-300, aprenda a reconhecer uma expressão M que irá que-
brar sua consulta ou executar inesperadamente. Para a vida real, invista al-
gum tempo em aprender a preparar suas perguntas para o futuro – seu futuro
eu e seus colegas agradecerão.

Resolvendo erros em sua consulta

Quando você vê o temido símbolo de erro amarelo em uma consulta, pode ser um
pouco alarmante (Figura 4-51)!
Figura 4-51 Muitos erros alarmantes!

Espero que você não veja com frequência tantos erros, mas o processo de
resolução é sempre o mesmo. Comece com a etapa que tem o erro e, em
seguida, selecione cada etapa anterior àquela com o erro, até encontrar uma
etapa que não esteja quebrada. Em seguida, identifique o que aconteceu entre
a última etapa de trabalho e a primeira etapa quebrada.

A boa notícia é que a maioria dos erros é de dois tipos: um caminho de ar-
quivo quebrado ou uma etapa anterior na sequência errada. Eu cobri camin-
hos de arquivos quebrados no capítulo anterior, então aqui falarei sobre al-
guns tipos comuns de etapas que quebram outras etapas. (Não consigo cobrir
todos os tipos de erro possíveis.)

Tipo de dados incorreto

Normalmente, você define seus tipos de dados como sua última etapa na con-
sulta porque a etapa Tipo alterado interromperá o dobramento da con-
sulta (consulte anteriormente). No entanto, há momentos em que você pre-
cisa executar uma operação em uma coluna ou colunas. Se os tipos de dados
existentes não forem compatíveis com essa operação (por exemplo, você ten-
tar multiplicar duas colunas de texto), poderá gerar um erro. A solução, nesse
caso, é inserir uma etapa Tipo alterado antes da etapa operacional.

Coluna ausente ou renomeada

Se você renomear ou excluir uma coluna da qual uma etapa subsequente depende, o
Editor do Power Query gerará um erro. Na Figura 4-52, criei um erro renomeando
uma coluna na etapa Colunas Renomeadas que, em seguida, quebra a etapa
Adicionada Personalizada (e todas as etapas a seguir).

Figura 4-52 Renomeei uma coluna muito cedo!

Não importa o tipo de erro, para solucionar problemas eu começo na etapa


quebrada e, em seguida, olho para cada etapa acima dela por sua vez. Nesse
caso, eu descobriria que a etapa Colunas renomeadas causou o problema e
posso corrigir o erro excluindo essa etapa. Às vezes você deve fazer uma cirur-
gia mais radical e reorganizar ou refazer seus passos.

Para referência futura: Reutilizando seu trabalho

Um roteiro M bem escrito pode ser uma obra de arte. Isso pode parecer uma
afirmação extravagante, até que você gaste uma quantidade considerável de
tempo construindo uma! Muito se pensa em escolher as etapas corretas, na or-
dem certa, de preferência sem quebrar a dobragem de consultas (veja ante-
riormente), e planejar futuras alterações nos dados. É bom saber que você
pode reutilizar seu trabalho.

O Editor Avançado
A Barra de Fórmulas reflete o M que foi gerado para a etapa selecionada no
momento. Se você quiser ver todo o M que foi gerado para uma consulta específica,
será necessá rio abrir o Editor Avançado na guia Página Inicial, mostrado na
Figura 4-53.

Figura 4-53 O M de uma consulta, no Editor Avançado

Embora o uso do Editor Avançado esteja além do escopo do exame, quero


que você saiba o que ele pode fazer por você. Se você precisar modificar
várias etapas e se sentir confiante em suas habilidades de codificação M,
poderá editar o M diretamente no Editor Avançado. Além disso, as etapas M
que você vê no Editor Avançado podem ser copiadas como texto sem
formatação e coladas em outra consulta.

Quando você começa a editar M no Editor Avançado, há algumas armadilhas


comuns:

Certifique-se de ter uma vírgula após cada etapa, exceto a última (a que
está logo acima da instrução in).
Certifique-se de que o script M comece com uma instrução let e termine
com uma instrução in (a menos que você esteja usando funções).
A instrução in geralmente faz referência ao nome da última etapa.
A etapa Origem (a primeira) deve apontar para o local correto para sua
fonte de dados.
Ao copiar e reutilizar M em outra consulta, verifique qualquer coisa que es-
teja "codificada" (entre aspas duplas) para garantir que um item com esse
nome esteja presente na consulta de destino.
Ao copiar e reutilizar M em outra consulta, verifique todas as referências
de etapa para garantir que elas estejam presentes na nova consulta.

Copiando uma consulta

Uma maneira ainda mais fácil de reutilizar o script M é copiar a consulta no


painel Consultas. Selecione a consulta no painel Consultas (no lado esquerdo
do PQE) e Ctrl+C. Abra a janela PQE para outro arquivo PBIX e Ctrl+V. A con-
sulta inteira agora está disponível para o segundo arquivo PBIX.

Copiando partes de um script M

Na Barra de Fórmulas, você pode ver o M de cada etapa. No Editor Avançado,


você pode ver o script inteiro. Você pode editar o M aqui (e na Barra de Fórmulas),
mas pode ser mais fá cil copiar o script e soltá -lo em um editor de texto. (Eu uso o
bloco de notas antigo.) Você pode copiar elementos do script (mostrados na Figura 4-
54) e, em seguida, colar esses elementos no Editor Avançado para uma consulta
diferente na qual você deseja reutilizar o M.
Figura 4-54 Exemplo de um script M a ser copiado em outra consulta

Como toda cirurgia, tenha cuidado ao fazer isso. Aqui estã o alguns "gotchas"
comuns:

1.Os nomes das etapas não são os mesmos nas duas consultas.
2.Os nomes das colunas não são os mesmos nas duas consultas.
3.A referência de origem é diferente (isso geralmente está na etapa
superior).
4.Omitir a vírgula no final de uma etapa.
5.Incluindo a vírgula na última etapa.

Tome seu tempo e preste atenção aos detalhes. Não tente editar com pressa,
essa é a maneira mais rápida de quebrar seu script M.

Carregando suas consultas (ou não)

Depois de concluir seu trabalho, é hora de carregar suas alterações no modelo


de dados. É importante entender exatamente o que está acontecendo quando
você faz isso. A primeira coisa que acontecerá é que o script, como está escrito,
é aplicado ao conjunto completo dos dados que você incluiu. Às vezes, porém,
você não deseja carregar uma consulta específica. Talvez seja uma consulta
"auxiliar". Um bom exemplo de uma consulta "auxiliar" é aquela que você
anexou a outra consulta (como no exemplo anterior deste capítulo). Nesse
cenário, você não precisa da consulta original, pois já a anexou (ou mesclou)
em outra consulta.

Para desabilitar a carga de uma consulta, clique com o botã o direito do mouse no
nome da consulta e desmarque a caixa ao lado de Enable Load, conforme mostrado
na Figura 4-55. Isso não exclui a consulta. O nome da consulta será indicado em itá lico
assim que você desativá -lo. As consultas "auxiliares" permanecerã o visíveis no Editor
do Power Query, mas não aparecerã o no Power BI Desktop.

Figura 4-55 Desativar o carregamento na área de trabalho

Algumas dicas e truques


Aqui estã o algumas dicas e truques que espero que você tire deste capítulo. Nem
todos eles sã o abordados no exame PL-300, mas todos eles vã o atendê -lo bem:

1.Documente suas consultas e etapas.


2.Mantenha como passos juntos.
3.Nomeie seus passos.
4.Os tipos de dados são importantes — seja intencional ao selecioná-los.
5.Mantenha a Barra de Fórmulas aberta e leia o M para cada etapa.
6.Prepare suas consultas para o futuro da melhor maneira possível.
7.Reutilize seu script M como/quando apropriado.
8.Altere os tipos de dados o mais próximo possível da última etapa.

Recursos adicionais

É impossível cobrir tudo sobre o Power Query Editor em um ú nico capítulo. Pensando
nisso, quero recomendar alguns livros que podem aprofundar seus conhecimentos.

Coletar, combinar e transformar dados usando o Power Query no Excel e no


Power BI por Gil Raviv
Domine seus dados com Excel e Power BI por Ken Puls e Miguel Escobar

No Capítulo 15, fornecerei recursos adicionais, incluindo o YouTube e out-


ros recursos da Internet.

Você também pode gostar