Você está na página 1de 12

Limpando bases com o Data Wrangler

Por Marco Túlio Pires, da Escola de Dados

O​
Data Wrangler é um aplicativo que funciona no seu navegador e foi desenvolvido por uma
equipe de pesquisadores da Universidade Stanford. O projeto foi finalizado em 2013, mas ele
permanece como uma poderosa alternativa para limpar bases de dados de pequeno porte, até 1000
linhas e 40 colunas. Sua interface é bem simples e o aplicativo funciona de forma a te sugerir as
ações mais prováveis pra você limpar a base em questão.

Vamos limpar ​
uma tabela raspada de um ​
PDF do Instituto de Segurança Pública do Rio de
Janeiro usando o ​
PDFtables​
, a mesma que usamos no nosso guia do Google Sheets. A ideia é mostrar
como diferentes ferramentas apresentam abordagens diferentes na hora de limpar uma tabela. Com
isso, esperamos que você possa escolher aquela que te atende melhor e de forma mais conveniente,
dependendo do tipo de limpeza que precisa executar.

Importando o arquivo para o Google Sheets


Se você não tem o Libre Office Calc ou o Excel você vai precisar importar a planilha para o Google
Sheets, que funciona no seu navegador sem precisar instalar um pacote adicionar. Para fazer isso é
muito fácil. A partir de qualquer planilha no Google Sheets (mesmo uma em branco) clique em
Arquivo > ​
Importar e depois escolha a aba “Upload”. Agora é só arrastar o arquivo da tabela para
dentro da janela do seu navegador.
Criar nova planilha​
Selecione “​ Abrir agora​
” e clique em “​ ”.
Copiano os dados para o Data Weangler
Clique na primeira célula e arraste o mouse segurando o botão esquerdo para selecionar todas as
informações da tabela. Clique em “Editar” e “Copiar”.

Vá até o ​
Data Wrangler​
, apague as informações na caixa de texto e cole o que acabou de copiar.
Clique em ​
Wrangle!
Vamos apagar as colunas “split1”, “split2”, “split7” e “split8”. Clique na palavra “split1” no topo da
coluna e selecione a opção “Drop split1” no menu à esquerda. Faça a mesma coisa com as outras
colunas.
Renomeando colunas
Agora vamos renomear as colunas. Começamos pela primeira, que vamos chamar de “Crimes”. As
outras vão se chamar “Capital”, “Baixada”, “Grande Niteroi” e “Interior”, respectivamente. Para
renomear a coluna basta clicar duas vezes no nome dela. Comece clicando duas vezes em “split” e
renomeando para “Crimes”. Faça o mesmo com as outras.
Apagando linhas
Podemos apagar as linhas 1 a 5 e 52, 53. Clique no número 1 e selecione “Delete row 1”. Faça o
mesmo com as linhas 2, 3, 4, 5, 52 e 53. Para chegar nas últimas linhas clique em “next” para mudar
de página.
Editando células
Esse arquivo do Instituto de Segurança Pública do Rio foi gerado com os nomes das categorias na
mesma coluna dos crimes. O ideal é que eles estejam em colunas separadas. Pra isso, vamos dar uma
ajudinha ao Data Wrangler, pra ele identificar quais são as categorias e criar a coluna
automaticamente. Vamos colocar um asterisco na frente de cada nome de categoria. São as células
que estão com os nomes em maiúsculo na coluna “Crimes”.

Clique duas vezes em cima das células que possuem todas as letras em maiúsculo e acrescente um
asterisco na frente do nome. Aperte enter ​
duas vezes para confirmar a edição. Não se esqueça de
clicar em “next” para ver as categorias na página seguinte.

Criando colunas a partir de padrões


Na primeira linha, selecione tudo que vem depois do asterisco. Selecione a opção “Extract from
Crimes after *”. O Data Wrangler vai criar uma coluna chamada “extract” automaticamente, com os
nomes das categorias.

Preenchendo valores com apenas um clique


Vamos renomear essa coluna para “Categoria”, clicando duas vezes em cima da palavra “extract”, no
topo da coluna. Em seguida, vamos clicar uma vez em cima dela e selecionar a opção “Fill Categoria
with values from above”. Com apenas alguns cliques, o Data Wrangle criou uma coluna de
categorias com os valores correspondentes.
Apagando linhas em massa
Agora vamos apagar as linhas que possuem nomes de categorias na coluna “Crimes”. Na primeira
linha, selecione apenas o asterisco antes da frase “VÍTIMAS DE CRIMES VIOLENTOS”. Clique na
opção “Delete”, no menu que está no topo, e selecione a opção “Delete rows where Crimes starts with
*”.
Exportando de volta para o Google Sheets
Clique em “Export”, que fique no menu à esquerda, na parte inferior da interface.
Selecione “Tab-Separeted Values (TSV)” no menu seguinte. Selecione todo o texto que estiver na
caixa e copie (clique com o botão direito e selecione “copiar”).
Agora cole o restultado numa planilha em branco do Google Sheets!

Pronto! O Data Wrangler não possui funções para alterar letras maiúsculas e minúsculas das
palavras, nem substituição em massa de valores, como vimos no guia de limpeza do Google Sheets.
Mas ele apresenta uma série de vantagens, principalmente reconhecendo padrões na sua tabela,
criando colunas e organizando os valores com poucos cliques.

Você também pode gostar