Escolar Documentos
Profissional Documentos
Cultura Documentos
O
Data Wrangler é um aplicativo que funciona no seu navegador e foi desenvolvido por uma
equipe de pesquisadores da Universidade Stanford. O projeto foi finalizado em 2013, mas ele
permanece como uma poderosa alternativa para limpar bases de dados de pequeno porte, até 1000
linhas e 40 colunas. Sua interface é bem simples e o aplicativo funciona de forma a te sugerir as
ações mais prováveis pra você limpar a base em questão.
Vamos limpar
uma tabela raspada de um
PDF do Instituto de Segurança Pública do Rio de
Janeiro usando o
PDFtables
, a mesma que usamos no nosso guia do Google Sheets. A ideia é mostrar
como diferentes ferramentas apresentam abordagens diferentes na hora de limpar uma tabela. Com
isso, esperamos que você possa escolher aquela que te atende melhor e de forma mais conveniente,
dependendo do tipo de limpeza que precisa executar.
Vá até o
Data Wrangler
, apague as informações na caixa de texto e cole o que acabou de copiar.
Clique em
Wrangle!
Vamos apagar as colunas “split1”, “split2”, “split7” e “split8”. Clique na palavra “split1” no topo da
coluna e selecione a opção “Drop split1” no menu à esquerda. Faça a mesma coisa com as outras
colunas.
Renomeando colunas
Agora vamos renomear as colunas. Começamos pela primeira, que vamos chamar de “Crimes”. As
outras vão se chamar “Capital”, “Baixada”, “Grande Niteroi” e “Interior”, respectivamente. Para
renomear a coluna basta clicar duas vezes no nome dela. Comece clicando duas vezes em “split” e
renomeando para “Crimes”. Faça o mesmo com as outras.
Apagando linhas
Podemos apagar as linhas 1 a 5 e 52, 53. Clique no número 1 e selecione “Delete row 1”. Faça o
mesmo com as linhas 2, 3, 4, 5, 52 e 53. Para chegar nas últimas linhas clique em “next” para mudar
de página.
Editando células
Esse arquivo do Instituto de Segurança Pública do Rio foi gerado com os nomes das categorias na
mesma coluna dos crimes. O ideal é que eles estejam em colunas separadas. Pra isso, vamos dar uma
ajudinha ao Data Wrangler, pra ele identificar quais são as categorias e criar a coluna
automaticamente. Vamos colocar um asterisco na frente de cada nome de categoria. São as células
que estão com os nomes em maiúsculo na coluna “Crimes”.
Clique duas vezes em cima das células que possuem todas as letras em maiúsculo e acrescente um
asterisco na frente do nome. Aperte enter
duas vezes para confirmar a edição. Não se esqueça de
clicar em “next” para ver as categorias na página seguinte.
Pronto! O Data Wrangler não possui funções para alterar letras maiúsculas e minúsculas das
palavras, nem substituição em massa de valores, como vimos no guia de limpeza do Google Sheets.
Mas ele apresenta uma série de vantagens, principalmente reconhecendo padrões na sua tabela,
criando colunas e organizando os valores com poucos cliques.