Vamos limpar
uma tabela raspada de um
PDF do Instituto de Segurança Pública do Rio de
Janeiro usando o
PDFtables
, a mesma que usamos no nosso guia do Google Sheets e Data Wrangler.
A ideia é mostrar como diferentes ferramentas apresentam abordagens diferentes na hora de
limpar uma tabela. Com isso, esperamos que você possa escolher aquela que te atende melhor e de
forma mais conveniente, dependendo do tipo de limpeza que precisa executar.
Editando células
Agora vamos acrescentar as categorias. Acrescente um asterisco à frente dos nomes que estão
exibidos em letras maiúsculas na colina “Crimes”. Passe o cursor do mouse sobre a célula que deseja
editar e selecione “edit”. Inclua o asterisco e clique em “Apply”. Faça isso com todos os nomes de
categoria.
Criando colunas baseadas em outras
Clique na setinha da coluna “Crimes” e escolha “Edit columns”, “Add column based on this
column...”. Escreva o nome “Categoria” na primeira caixa de texto para dar o nome à coluna. Na
caixa de texto “Expression”, digite o seguinte código:
Essa expressão avalia o conteúdo das células da coluna “Crimes”. Se a célula começar com um
asterisco, tudo que vem depois dele é copiado para a coluna “Categorias”. Se a célula não começar
com um asterisco, a célula fica em branco na coluna “Categorias”. Selecione “OK”.
Preenchendo valores automaticamente
Na coluna “Categorias”, selecione a setinha e escolha “Edit cells” e, em seguida, “Fill down”. Essa
opção vai preencher a coluna com os nomes das categorias nas células que estão em branco.
Ou seja, se o valor da coluna for “-”, ele será apagado, caso contrário, o valor é mantido. Selecione
“OK” e faça o mesmo com as outras colunas. Se a sua expressão der erro, apague as aspas e digite-as
novamente.
Exportando a tabela limpa
Agora é só exportar a tabela para um dos muitos formatos compatíveis com o OpenRefine. O nosso
favorito é o CSV (Comma Separated Values). Basta clicar em “Export” e escolher um formato.