O presente caso versa sobre minha experiência na aplicação de tecnologias de
Business Intelligence para a análise de grande volume de dados em investigações criminais. O maior problema que se apresenta é o grande volume e, ainda, as diversas fontes e formatos dos dados a serem analisados. A investigação criminal é uma ação oficial para levantar informações sobre uma suposta prática criminosa. Pode-se dizer que é o ponto de partida da persecução penal, para apuração de um determinado fato, supostamente criminoso. Após ser noticiado um fato suspeito, e com a devida instauração de procedimento policial, o investigador deve planejar seu trabalho e buscar as informações necessárias para levantar os indícios da ocorrência de um crime, bem como indicar seu(s) autor(es). Neste tipo de trabalho, é muito comum a coleta de um grande volume de dados, oriundos de várias fontes e com variados formatos. Estes dados podem ser estruturados, como os coletados em sistemas e bancos de dados, como também podem ser não estruturados, como os obtidos de digitalização de arquivos ou pela busca na internet.
E agora?
Como resolver o problema do grande volume de dados, de diversas fontes e
formatos a serem analisados?
1 Autorizado pelo aluno a ser utilizado como exemplo, já com as correções necessárias. Buscando saídas
Foram propostas as seguintes alternativas para o problema apresentado.
Alternativa 01 - Padronizar e normalizar os dados
Criar padrões de estruturação de dados e, a partir disto, normalizar novos
dados com tais padrões. Existem diversos sistemas e bases de dados que exportam relatórios em formatos estruturados (xls, txt, csv, xml, etc). Para estes basta normalizar com os padrões estabelecidos. Já outras fontes fornecem relatórios não estruturados (doc, rtf, html, pdf, etc), gerando um trabalho adicional de estruturação.
Alternativa 02 - Criar uma única base para dados estruturados e organizar os
dados não estruturados em um único ambiente
Após a padronização de dados, deve-se adotar um único ambiente para o seu
armazenamento, preferencialmente em Data Warehouse ou em softwares que já dispõem de ambiente próprio do tipo banco de dados. Para os dados não estruturados deve-se padronizar a forma de armazenamento em pastas e subpastas.
Alternativa 03 - Aplicar ferramentas de análise
Após a alimentação da base de dados estruturados, pode-se aplicar diversas
ferramentas analíticas, a fim de se permitir diferentes “visões” sobre os dados, tais como tabelas, gráficos, mapas e diagramas. Para tanto, há diversas ferramentas que permitem tais visualizações, sejam as de porte corporativa ou, até mesmo, as disponíveis para o próprio analista (do tipo “desktop”). Já em relação aos dados não estruturados há ferramentas que permitem indexar o conteúdo para permitir rápidas consultas de conteúdo.