Você está na página 1de 37

GRUPO DE TRILHAS 2

Projeto Análise de Gastos


Etapa – Exploração de Dados

Documento versão 1.0


Última atualização: 15/10/2023.

Espírito Santo
10/2023
Este documento tem como objetivo fornecer informações sobre a execução da fase
de Exploração de Dados do Projeto Análise de Gastos. Durante essa fase, várias
atividades foram realizadas, que serão descritas em detalhes mais adiante e estão
organizadas em categorias.
LISTA DE FIGURAS

Figura 1 – Ciclo de vida analítico..........................................................................................................................10


Figura 2 – Diagrama Entidade Relacionamento (ER) I.........................................................................................26
Figura 3 – Diagrama Entidade Relacionamento (ER) II.........................................................................................27
SUMÁRIO

IDENTIFICAÇÃO DOS ENVOLVIDOS............................................................................................6


HISTÓRICO DE ATUALIZACÕES DO DOCUMENTO.................................................................8
1. INTRODUÇÃO.............................................................................................................................9
1.1 CICLO DE VIDA ANALÍTICO.............................................................................................9
2. REQUISITOS DO GRUPO DE TRILHAS 1...........................................................................11
3. PLANEJAMENTO DA EXPLORAÇÃO DE DADOS............................................................12
4. EXECUÇÃO DA EXPLORAÇÃO DE DADOS......................................................................14
4.1 IDENTIFICAÇÃO E PRIORIZAÇÃO DOS DADOS.......................................................14
4.1.1 Pesquisar os Dados que possam ser obtidos para a solução do problema
14
4.1.2 Identificar aqueles dados que podem ser obtidos e aqueles que são
desejáveis, mas não são necessariamente disponíveis................................................19
4.1.3 Analisar como os dados identificados são refletidos no negócio,
processos e fluxos operacionais.........................................................................................20
4.1.4 Verificar Proveniência de Governança dos Dados..........................................22
4.2 OBTENÇÃO, INGESTÃO E PREPARAÇÃO DOS DADOS........................................23
4.2.1 Extrair os Dados Estruturados de suas Fontes...............................................24
4.2.2 Extrair os Dados não Estruturados.....................................................................24
4.2.3 Determinar a Privacidade e Proteção dos Dados............................................25
4.2.4 Data Quality – Aplicar Processos de Limpeza e Enriquecimento................25
4.2.5 Mapear Dados Resultantes com o Negócio, Processos e Fluxos
Operacionais.............................................................................................................................25
4.3 PERFIL DOS DADOS (PROFILING)..............................................................................26
4.3.1 Identificar relações entre os dados.....................................................................26
4.4 EXPLORAÇÃO DOS DADOS..........................................................................................29
4.4.1 Criar protótipos de visualização adequados aos tipos de dados e análises
29
IDENTIFICAÇÃO DOS ENVOLVIDOS

NOME FUNÇÃO E-MAIL

Diana Bastos Stakeholder SEGER-ES diana.bastos@seger.es.gov.br


Pamela Silva Stakeholder SEGER-ES pamella.silva@seger.es.gov.br
Gabriel Reis Gerente Executivo VERT gabriel.reis@vert.com.br
Marcelo Feitosa Analista de VERT marcelo.feitosa@vert.com.br
Requisitos
Zaloar Pinto Stakeholder SEGER-ES zaloar.pinto@seger.gov.br
Luciana Miranda Líder do Projeto VERT luciana.miranda@vert.com.br
Gustavo Aguiar Cientista de VERT gustavo.aguiar@vert.com.br
Dados/Líder Técnico
Berg Gama Cientista de Dados VERT berg.monteiro@vert.com.br
Francisco Wyllton Engenheiro de Dados VERT francisco.coelho@vert.com.br
Luis Philippe Analista de BI VERT amanda.dias@vert.com.br
HISTÓRICO DE ATUALIZACÕES DO DOCUMENTO

DATA VERSÃO DESCRIÇÃO AUTOR

05/10/2023 1.0 Criação do Documento Francisco Wyllton


Adição de seção de identificação e
1.1 Gustavo Aguiar
priorização dos dados
Inclusão de figura e tabelas de visualização
1.2
dos dados
Atualização seção de identificação e
1.3
priorização dos dados
1.4 Revisão Geral do documento
2.0 Reestruturação completa do documento
Adição de seção de obtenção, ingestão e
2.1
preparação dos dados
Adição de seção de perfil dos dados
2.2
(profiling)
15/10/2023 2.3 Adição de seção de exploração dos dados Luis Philippe
2.4 Correção de formatação do Documento
2.5 Finalização do Documento e revisão final
1. INTRODUÇÃO

1.1 CICLO DE VIDA ANALÍTICO


A metodologia seguida no projeto é fundamentada no livro "The Analytics
Lifecycle Toolkit – A practical guide for an effective analytics capability", de Gregory
S. Nelson. É uma abordagem sólida e estruturada para o ciclo de vida analítico, que
consiste nas fases e etapas necessárias para a condução eficaz de projetos
analíticos.
Diferente do desenvolvimento clássico de software, os projetos analíticos
apresentam uma variedade de características distintas, o que os torna complexos e
multifacetados. Devido a essa diversidade inerente, é crucial adotar uma
metodologia que considere esta variação e ofereça critérios, premissas e técnicas
para apoiar o planejamento adequado.
A metodologia fornece uma estrutura que permite o alinhamento de
expectativas entre todas as partes envolvidas e melhora a capacidade de realizar
estimativas de projeto mais precisas. Através de uma abordagem estruturada, esta
metodologia aumenta a assertividade e reduz os riscos associados ao
desenvolvimento de projetos analíticos.
Dependendo do tipo e da natureza do projeto analítico em questão, as etapas
necessárias e a quantidade de esforço despendido em cada uma delas podem
variar. No entanto, a estrutura do ciclo de vida analítico é suficientemente flexível
para se adaptar a essas variações, fornecendo um guia confiável e eficaz para o
desenvolvimento de produtos de dados. A Figura 1 apresenta o ciclo de vida
analítico adotado, suas as fases e etapas.
Figura 1 – Ciclo de vida analítico

Neste relatório, o foco é a fase de Exploração de Dados, uma etapa essencial


no ciclo de vida analítico, que se dedica ao refinamento das informações obtidas na
fase de Definição do Problema. Durante a exploração, o problema de negócios é
aprofundado e as atividades são estruturadas de maneira mais detalhada, focando
em diversos aspectos essenciais, a saber:

1. Primeiro, a identificação e priorização dos dados que são


relevantes são executadas. Estas atividades envolvem um
levantamento cuidadoso dos dados que serão úteis para a solução do
problema em questão. Os dados são então priorizados com base em
critérios como relevância, qualidade e acessibilidade.
2. Posteriormente, ocorre a obtenção, ingestão e preparação dos
dados. Os dados identificados e priorizados são coletados de suas
fontes originais, ingeridos em um sistema de gerenciamento de dados
e, em seguida, preparados para análise. Esta preparação pode incluir
limpeza, transformação e enriquecimento de dados, a fim de garantir
que estejam em um formato adequado para análise.
3. A etapa de perfil dos dados (profiling) é realizada em seguida,
proporcionando um entendimento detalhado das características e
relações dos dados. Esta etapa é vital para identificar quaisquer
anomalias, tendências ou padrões que possam existir nos dados.
4. Finalmente, a exploração dos dados com foco no produto é
realizada. Esta é uma fase de análise intensiva, na qual os dados são
examinados a fundo para gerar insights que possam ser aplicados na
solução do problema de negócios. Esta exploração é guiada pelo
conhecimento e compreensão obtidos nas etapas anteriores do ciclo
de vida analítico.

Em suma, este relatório se dedicará a detalhar e discutir cada uma destas


atividades, enfatizando sua importância no contexto do ciclo de vida analítico.

2. REQUISITOS DO GRUPO DE TRILHAS 2

A fase de Exploração de Dados é focada em atender aos requisitos específicos


identificados durante a fase de definição do problema para o Grupo de Trilhas 2.
Esses requisitos estão diretamente relacionados à compreensão aprofundada do
problema de negócio e à estruturação das atividades necessárias para sua solução.
Eles abrangem as seguintes áreas de foco:

1. Data de Exercício: Verificação de datas de exercício divergentes em


relação à data de provimento.

2. Férias: Análise das informações sobre férias dos funcionários, incluindo


indenização, indenização sem considerar afastamentos, pagamentos das férias,
remoção/alteração indevida da escala, férias com descontos, pagamento de período
anterior a dois anos e férias próximas do vencimento.

Cada um desses requisitos desempenha um papel crucial na identificação e


priorização dos dados necessários, na obtenção, ingestão e preparação dos dados,
no perfil dos dados e na exploração dos dados com foco no produto. A compreensão
clara desses requisitos é fundamental para a execução eficaz do projeto analítico.
3. PLANEJAMENTO DA EXPLORAÇÃO DE DADOS
O Planejamento da Exploração de Dados é uma etapa essencial destinada a
organizar e guiar as atividades de análise de dados. Este processo visa garantir que
as estratégias de exploração de dados sejam alinhadas com os objetivos de
negócio, e que as soluções propostas sejam adequadas, eficazes e eficientes para
resolver os problemas identificados, sem gerar novos desafios.
O objetivo desta fase é estabelecer um plano sólido para a exploração eficaz
de dados, garantindo que os painéis desenvolvidos sejam informativos, intuitivos e
úteis para a tomada de decisões. A metodologia é flexível e dependendo do produto
de dados que será desenvolvido algumas etapas. A Exploração de Dados, quando
focado no desenvolvimento de painéis, é estruturado em três etapas principais:
1. Identificação dos Dados Relevantes: Esta etapa inicial envolve a
identificação das necessidades específicas de dados para a criação
efetiva dos painéis. Baseada nos requisitos previamente definidos, é
crucial determinar quais dados são essenciais para fornecer insights
significativos e orientar a tomada de decisões. O objetivo é identificar
os conjuntos de dados que possam ser explorados e visualizados
nos Dashboards.
2. Obtenção, Ingestão e Preparação dos Dados: Após a identificação
dos dados relevantes, a fase seguinte envolve a obtenção, ingestão
e preparação desses dados. Esta preparação inclui processos como
limpeza, transformação e enriquecimento de dados, assegurando
que estejam em um formato apropriado para a análise. No contexto
do desenvolvimento de painéis, essa etapa é essencial para garantir
que os dados estejam prontos para serem visualizados de maneira
eficaz e significativa. É importante notar que os processos
específicos de preparação podem variar dependendo das
necessidades de cada Dashboard.
3. Criação de Protótipos de Visualização e Documentação: A última
etapa envolve a criação de protótipos de visualização adequados
para os tipos de dados e análises identificados. A escolha da
visualização certa é crucial para comunicar de maneira eficaz as
informações contidas nos dados. Além disso, é importante
documentar gráficos e visões que ajudem a explicar o contexto e os
insights dos dados apresentados nos painéis. Isso fornece uma
compreensão mais profunda dos dados e facilita a interpretação dos
usuários finais.
A etapa de traçar o Perfil dos Dados (Profiling) não é essencialmente
necessária para o desenvolvimento de dashboards. Enquanto a análise de perfil de
dados é uma ferramenta extremamente útil no processo de desenvolvimento de
modelos de aprendizado de máquina e inteligência artificial, na criação de painéis,
essa etapa pode não ser sempre obrigatória. O foco principal do desenvolvimento de
dashboards está em identificar, preparar e visualizar os dados de maneira eficaz e
intuitiva, ao invés de realizar uma análise profunda e detalhada dos atributos e
relações dos dados, como normalmente ocorre no Profiling. A única atividade
relevante dentro dessa etapa, considerando o produto de dados que será
desenvolvido, é “Identificar relações entre os dados”.

4. EXECUÇÃO DA EXPLORAÇÃO DE DADOS

4.1 IDENTIFICAÇÃO E PRIORIZAÇÃO DOS DADOS

A seção "Identificação e Priorização dos Dados" é o ponto inicial do ciclo de


vida analítico, onde o foco recai sobre a definição dos dados que são mais
relevantes para a questão de negócio em análise. Esta fase determina a eficácia das
etapas subsequentes de análise de dados. A identificação cuidadosa de quais dados
são necessários e onde eles podem ser encontrados é essencial para a validade e
precisão das conclusões que podem ser extraídas posteriormente. Depois que os
dados relevantes são identificados, eles são analisados com base em critérios como
sua relevância para a questão de negócio, a viabilidade de sua coleta e o valor dos
insights que podem ser gerados a partir deles.
4.1.1 Pesquisar os Dados que possam ser obtidos para a solução
do problema

A etapa de identificação é orientada pela intenção de assegurar que os dados


mais relevantes (no contexto do produto que será desenvolvido) sejam identificados.
A primeira atividade concentra-se em determinar quais conjuntos de dados estão
prontamente acessíveis para análise. Isso abrange uma variedade de fontes
potenciais, desde bancos de dados internos até repositórios de dados de terceiros.
O objetivo desta etapa é catalogar os dados existentes, avaliando suas fontes,
estrutura e conteúdo, a fim de entender o que está imediatamente disponível para
uso.
Uma análise preliminar dos dados disponibilizados pelo cliente, revelou a
existência de um total de 02 arquivos Excel “Serviços 2023” e “Vigilância 2023”,
sendo os 02 em formato XLSX.
No arquivo “Serviços 2023.XLSX” é constituído por um total de 08 guias, cujos
respectivos nomes são “A-Resumo LIMPEZA”, “B1- Detalhada sem material”, “B2-
Detalhada com material”, “B3- Detalhada DEMAIS”, “C- Dados Calendário e CCT”,
“D- Dados Estatisticos”, “E- Memória de Cálculo” e “F- Dados de publicação”. A guia
“A-Resumo LIMPEZA” é constituída por “3” colunas com os dados brutos enviados
pela contratada. A guia “B1- Detalhada sem material” é constituída por “7” colunas
provenientes da guia “A-Resumo LIMPEZA” detalhando os custos do serviço de
conservação e limpeza sem o material. A guia “B2- Detalhada com material” é
constituída por “7” colunas contendo a mesma informação da guia anterior, porém é
detalhada com material. A guia “B3- Detalhada DEMAIS” é constituída pelas
mesmas informações que as guias anteriores, porém reflete os demais serviços de
apoio terceirizado. A guia “C- Dados Calendário e CCT” é constituída por “5” Tabelas
de apoio refletindo os custos do serviço. A guia “D- Dados Estatisticos” é constituída
por “5” Tabelas de apoio refletindo outros custos, matérias e equipamentos. A guia
“E- Memória de Calculo” é constituída por “1” Tabela contendo dados de cálculos
utilizados pela contratada.
Os dados contidos no arquivo “Vigilância 2023.XLSX” reflete os mesmos
dados do arquivo anterior, porém são dados refletindo o serviço de Vigilância com a
mesma estrutura dos dados. E ambos arquivos são utilizados para alimentar o
“Cockpit”.

No entanto, é fundamental observar que o número de tabelas pertinentes


pode aumentar consideravelmente ao ampliar a análise para tabelas adjacentes.
Essas tabelas podem desempenhar uma função crucial na identificação e/ou
classificação das informações contidas nas tabelas principais. Elas podem oferecer
dados adicionais que podem ser úteis na análise, incluindo metadados, relações
entre entidades e outros dados contextuais. Na fase de operacionalização, deve-se
considerar a inclusão de mais tabelas para aprimorar a compreensão do contexto da
Análise de Gastos. Nesses casos, será realizada uma avaliação das tabelas
adjacentes.
Na seção Anexos deste relatório, encontra-se uma tabela que foi preparada
para proporcionar uma visão clara e organizada dos itens a serem auditados, as
tabelas relevantes no banco de dados e os dados relevantes. Nesse sentido, foi
construída uma planilha, que serviu de base para a tabela apresentada neste
documento, que contém as seguintes colunas: Grupo de Trilhas, Nº, Trilha Itens a
Serem Auditados, Verificações, Banco, View/Table, Coluna OBS, Nome, Completo,
Tabela.
A Tabela 1 apresenta a lista de tabelas por arquivo consideradas como
relevantes.

Serviços 2023. A-Resumo LIMPEZA


Serviços 2023. C- Dados Calendário e
CCT
Vigilância 2023. A-Resumo VIGILÂNCIA
Vigilância 2023. C- Dados Calendário
e CCT
Tabela 1 – Tabelas identificadas como relevantes para os requisitos

Considerando a lista de tabelas acima, a descrição resumida do contexto dos


dados contidos em cada uma dessas tabelas é apresentada a seguir:

COLUNA DESCRICAO
Serviços 2023. A-Resumo Resumo do Custo do Serviço de Conservação e Limpeza Predial e
LIMPEZA
Demais Serviços de Apoio Terceirizado

Serviços 2023. C- Dados São tabelas de apoio com dados de calendários e parâmetros da CCT
Calendário e CCT
com cargos, salários, impostos e encargos trabalhistas de serviços.
Vigilância 2023. A-Resumo Resumo do Custo do Serviço de Vigilância Ostensiva
VIGILÂNCIA

Vigilância 2023. C- Dados São tabelas de apoio com dados de calendários e parâmetros da CCT
Calendário e CCT
com cargos, salários, impostos e encargos trabalhistas de vigilancia.

Tabela 2 – Descrições das tabelas


Este processo de identificação de todas as fontes disponíveis e definição dos
dados que são relevantes no contexto do produto é fundamental para direcionar o
trabalho da equipe durante várias atividades de desenvolvimento durante a fase de
operacionalização.

4.1.2 Identificar aqueles dados que podem ser obtidos e aqueles


que são desejáveis, mas não são necessariamente
disponíveis

No processo de identificação de dados relevantes para a análise, verificou-se


que a maioria das informações necessárias está disponível em arquivos Excel. No
entanto, foi identificado 01 site que se mostra relevante para o contexto do projeto.
Isso significa que, embora todas as variáveis e atributos identificados como
essenciais para a análise estejam disponíveis para coleta o modo como os dados
serão coletados e devidamente tratados pode representar um desafio.
A disponibilidade de todos os outros dados considerados críticos para a
análise contribui para a eficiência das próximas etapas do projeto. Além disso,
apesar desta limitação, a identificação dos sites relevantes oferece um caminho
claro para futuras investigações e solicitações de acesso, potencialmente
enriquecendo ainda mais o conjunto de dados disponível para este projeto, pois
podem fornecer informações úteis para responder a possíveis necessidades que
possam surgir durante a fase de operacionalização dos Dashboards. Esses sites
estão listados na Tabela 3.
Sites
https://portalsiga.es.gov.br/

Tabela 3 – Fontes de dados interessantes que temos acesso de forma manual.

4.1.3 Analisar como os dados identificados são refletidos no


negócio, processos e fluxos operacionais

A etapa de "Analisar como os dados identificados são refletidos no negócio,


processos e fluxos operacionais" refere-se à análise de como os dados selecionados
para análise estão relacionados e são significativos para o negócio, seus processos
e fluxos operacionais. A finalidade desta etapa é garantir que os dados que estão
sendo considerados para análise são relevantes, precisos e aplicáveis ao contexto
do negócio. Nesta etapa, são levados em consideração vários aspectos:
 Relevância para o Negócio: O objetivo aqui é entender como os
dados se correlacionam com as metas e objetivos do negócio. Os
dados devem ser capazes de fornecer insights valiosos que possam
ajudar na tomada de decisões estratégicas.
 Reflexo nos Processos: A análise deve avaliar se os dados são um
reflexo preciso dos processos de negócios. Isso ajuda a garantir que os
insights gerados a partir desses dados sejam aplicáveis e úteis no
contexto do processo de negócio.
 Integração nos Fluxos Operacionais: Este aspecto considera como
os dados se encaixam nos fluxos operacionais existentes. Os dados
devem ser facilmente integráveis aos sistemas e processos existentes,
para que possam ser utilizados de maneira eficaz.

Os dados identificados como relevantes para a análise são essenciais para a


execução das funções que desempenham um papel crítico na gestão da análise dos
gastos. As informações derivadas desses dados são vitais para a tomada de
decisões eficazes e o suporte às auditorias, que são funções essenciais do negócio.
A análise também revela que a falta de um sistema automatizado e eficiente
para a gestão da análise de gastos é uma questão que afeta o negócio, os
processos e os fluxos operacionais. Os desafios associados à verificação manual
dos dados destacam a necessidade de melhorar o uso dos dados disponíveis e
implementar soluções mais eficazes para a gestão desses processos.
Em resumo, a análise dos dados identificados revela que eles são vitais para o
funcionamento da SEGER-ES e estão intimamente entrelaçados com seus
processos de negócio e fluxos operacionais.
4.1.4 Verificar Proveniência de Governança dos Dados
Na etapa "Verificar Proveniência de Governança dos Dados", o objetivo é
assegurar que os dados que estão sendo utilizados na análise sejam de fontes
confiáveis e que tenham sido coletados, processados e gerenciados de acordo com
as políticas e procedimentos de governança de dados da organização. Isso ajuda a
garantir a integridade e a confiabilidade dos dados, que são fundamentais para a
validade das análises e insights gerados a partir desses dados.
Proveniência, em termos de dados, refere-se à origem dos dados - onde eles
foram gerados, como foram coletados e como foram processados até chegar à sua
forma atual. Essa informação é fundamental para avaliar a confiabilidade e a
validade dos dados. Se a origem dos dados ou os métodos de coleta e
processamento não forem claros, a confiabilidade dos dados pode ser questionada.
A obtenção dos dados para análise e desenvolvimento dos dashboards ocorre
por meio de arquivos Excel. Fica aqui um ponto de atenção para que este
mecanismo de conexão seja melhorado de forma que se possa assegurar que os
dados permaneçam seguros e protegidos durante todo o processo, mantendo a
integridade e a confiabilidade dos dados.
A Governança dos Dados, por outro lado, refere-se às políticas,
procedimentos, normas e responsabilidades que garantem a qualidade, proteção e
uso adequado dos dados dentro de uma organização. A governança de dados eficaz
ajuda a garantir que os dados sejam precisos, consistentes, seguros e que estejam
disponíveis para as pessoas certas no momento certo. O cumprimento dessas
políticas é vital para garantir a integridade, a segurança e a disponibilidade dos
dados, bem como a consistência e a confiabilidade das análises resultantes.
No contexto de um órgão público, a governança de dados se torna ainda mais
crucial devido à necessidade de conformidade com a Lei Geral de Proteção de
Dados (LGPD). A LGPD estabelece diretrizes rígidas para o processamento de
dados pessoais, exigindo que as organizações garantam a proteção, a privacidade e
a segurança dos dados em todas as etapas do ciclo de vida dos dados.
Dentro do ambiente SAS Viya, o acesso aos dados é estritamente controlado
através de um sistema de permissões de usuário. Apenas usuários previamente
cadastrados e autorizados têm permissão para consultar a CASLIB associada ao
banco de dados. Esta medida de controle de acesso é fundamental para a
governança de dados, pois garante que apenas indivíduos autorizados possam
acessar, manipular e analisar os dados. Além disso, para acessar o ambiente de
produção SAS Viya, é necessário estar conectado à VPN da SEGER-ES. Isso
fornece uma camada adicional de segurança ao processo, pois assegura que os
dados só possam ser acessados através de uma conexão segura e criptografada.
Desta forma, a SEGER-ES implementa práticas robustas de governança de
dados para garantir a conformidade com a LGPD e outras regulamentações
pertinentes, ao mesmo tempo em que assegura a segurança, a privacidade e a
integridade dos dados utilizados para análise e tomada de decisões.

4.2 OBTENÇÃO, INGESTÃO E PREPARAÇÃO DOS DADOS

A seção de "Obtenção, Ingestão e Preparação dos Dados" aborda um estágio


crítico no ciclo de vida analítico: a aquisição e preparação dos dados para análise.
Este processo começa com a obtenção dos dados a partir de fontes confiáveis e
seguras, seguido pela ingestão desses dados no ambiente de análise.
Posteriormente, os dados são preparados - um processo que pode envolver limpeza,
transformação e enriquecimento dos dados - para garantir que estejam em um
formato adequado para a análise subsequente. Esta etapa é fundamental para
garantir a qualidade e a precisão dos insights e resultados gerados a partir dos
dados. No geral, as atividades previstas para esta etapa serão detalhadas nos
documentos da fase de operacionalização.

4.2.1 Extrair os Dados Estruturados de suas Fontes

A extração dos dados estruturados de suas respectivas fontes é uma etapa


crucial na obtenção, ingestão e preparação dos dados. Nesta fase, os dados
identificados como relevantes e armazenados em formatos estruturados são
coletados das suas fontes originais.
As especificações para a extração de dados serão estabelecidas durante a
fase de operacionalização dos Dashboards, período no qual serão construídos
códigos SAS dedicados para a preparação dos dados de cada Dashboard. Dessa
forma, os dados estruturados serão obtidos a partir de um Data Mart, construído no
ambiente SAS.

4.2.2 Extrair os Dados não Estruturados

A extração de dados não estruturados, que inclui informações como textos ou


imagens, é uma parte essencial do processo de análise de dados, visto que pode
revelar insights valiosos que os dados estruturados, por vezes, não conseguem
fornecer. No entanto, o foco do grupo de trilhas 1 está exclusivamente em dados
tabulares armazenados em arquivos Excel. Portanto, não há necessidade de
extração de dados não estruturados para a ingestão e preparação dos dashboards.

4.2.3 Determinar a Privacidade e Proteção dos Dados

A privacidade e proteção dos dados são componentes críticos da preparação


dos dados. Nesta etapa, é necessário garantir que todas as manipulações e análises
de dados estejam em conformidade com as normas e regulamentos de proteção de
dados. As medidas de privacidade e proteção de dados serão incorporadas durante
a operacionalização dos dashboards, em que códigos SAS específicos serão
construídos para cada dashboard, respeitando todos os requisitos de privacidade e
proteção dos dados. Incluindo também a configuração de autorização de acesso aos
códigos e painéis seguindo diretrizes da SEGER-ES.
4.2.4 Data Quality – Aplicar Processos de Limpeza e
Enriquecimento

A garantia de qualidade dos dados é um elemento crucial para assegurar


análises precisas e confiáveis. Esta etapa envolve a aplicação de processos de
limpeza e enriquecimento de dados, visando aprimorar a precisão, consistência e
relevância das informações. Contudo, essas operações serão especificamente
delineadas e executadas na fase de operacionalização dos dashboards. Códigos
SAS personalizados serão elaborados para cada Dashboard, assegurando a
adequação dos dados específicos utilizados em cada análise.

4.2.5 Mapear Dados Resultantes com o Negócio, Processos e


Fluxos Operacionais

O mapeamento dos dados resultantes com o negócio, processos e fluxos


operacionais envolve a conexão dos dados coletados e processados às suas
aplicações práticas dentro do contexto do negócio. Esse mapeamento é uma
atividade será efetivada durante a fase de operacionalização dos Dashboards, onde
as tabelas resultantes do processo de preparação serão correlacionadas com os
painéis que elas alimentam por meio de diagramas.

4.3 PERFIL DOS DADOS (PROFILING)

4.3.1 Identificar relações entre os dados

A análise dos dados requer uma compreensão detalhada das relações entre
as diversas tabelas presentes nos arquivos Excel. As tabelas mencionadas na seção
4.1.1 seguem o princípio de Objeto Entidade Relacional padrão dos bancos de
dados relacionais.
Para a finalidade deste relatório, serão descritas as tabelas selecionadas para
exploração e as colunas ou chaves que fornecem seus respectivos relacionamentos.
Isso é feito para viabilizar as consultas futuras que serão o resultado de dashboards
para as auditorias solicitadas.
A seguir, são listadas as possíveis relações entre as tabelas mencionadas
anteriormente. Através dessas relações, é possível integrar as informações relativas
a todas a tabelas.

COLUNA REFERENCIA
Tabela 4 – Colunas com suas referências

Essas relações, combinadas com as estruturas de tabelas identificadas,


estabelecem o mapeamento necessário para a exploração e análise dos dados.
Para ilustrar visualmente essas conexões, uma representação gráfica das relações
entre as tabelas mencionadas é apresentada na Figura 2 e na Figura 3. Por meio
desses relacionamentos, podemos construir consultas complexas que integrem os
dados de diversas tabelas, permitindo a realização de análises mais profundas e
abrangentes.
Figura 2 – Diagrama Entidade Relacionamento (ER) I

No contexto de bancos de dados relacionais, os relacionamentos entre


tabelas são frequentemente estabelecidos por meio de chaves estrangeiras, também
conhecidas como FKs. Um exemplo particular que não está explícito no diagrama de
Entidade Relacionamento (ER) é a ligação entre as tabelas JORNADAS_ e FICHA
RUBRICA.
A tabela JORNADAS_ tem uma coluna denominada SIGLA que estabelece
um vínculo com a tabela FICHA RUBRICA, especificamente com a coluna
JORNADA. Esse relacionamento, embora não seja imediatamente aparente no
diagrama de ER, é um elemento essencial para a compreensão da estrutura de
dados global e para a realização de consultas e análises de dados precisas e
eficazes.
Figura 3 – Diagrama Entidade Relacionamento (ER) II

Da mesma forma que mencionado no caso anterior, na tabela CATEGORIAS_,


a coluna PONTPUBL fornece uma ligação com a tabela VINCULOS, precisamente
por meio da coluna PONTPUBL. Este relacionamento, embora não evidente no
diagrama de Entidade Relacionamento, é essencial para a análise adequada dos
dados.

4.4 EXPLORAÇÃO DOS DADOS

4.4.1 Criar protótipos de visualização adequados aos tipos de


dados e análises

A criação de protótipos de visualização representa uma etapa importante no


processo de desenvolvimento de dashboards. Esta tarefa envolve a construção de
representações visuais preliminares que se alinham ao tipo de dados e às análises
requeridas. A finalidade é proporcionar uma primeira impressão de como os dados
serão apresentados, facilitando o entendimento e permitindo ajustes antes da
implementação final.
No entanto, a realização desta atividade depende da operacionalização do
Data Mart no SAS, já que as visualizações precisam ser construídas utilizando o
SAS Visual Analytics. Além disso, é imprescindível que os dados sejam preparados
e estruturados adequadamente para assegurar a relevância e a assertividade das
representações visuais. No contexto do desenvolvimento de Dashboards esta
atividade se aproxima com a atividade de prototipação do próprio produto.
ANEXOS

Itens a
Serem Tabela Dados
Obs
Auditad Relevante Relevantes
os

FUNCIONARI
OS

VINCULOS DTNOM
Data do
Exercici DTPOSSE
o
EXERCICIOS DTEXERC
FICHA RUBRICA
RUBRICA
STATUS
RUBRICAS
DT_PRECR
Férias WEB_PEDIDO RUBRICA IN (525, 582, 583, 953) -- RUBRICA ABATE TETO ICAO
S_FERIAS
DTINI
PERAQFER
DTFIM
EXCLUS RUBRICA
VANTAGENS
’AO
BLOQU DTINI
FUNCIONARIO RUBRICA IN (525, 582, 583, 953) -- RUBRICA ABATE TETO
EIO
S
PAGAM DTFIM
ENTO
RUBRICA

VANTAGENS
RUBRICA
DESIGNACOE
S_EV VANTAGE
DESIGNAÇAO
M
SUBSTITUIÇÃO
Opções SUBSTITUICO
SUBSTITUIÇÃO AUSÊNCIA
de ES_EV
*função gratificada* DTIN
Pagame
*cargo em comissão*
nto
SUBST_AUSE
DTFIM
NC_EV

FUNCAO
SUBST_EVEN
TUAIS
DESCRICA
O
HORARIO_TR
AB
JORNADA
PROVIMENTO
REFEREN
Pagame PROVIMENTO CIA
ntos S_EV
TIPOFREQ = 'FREQ EXT CH'
CARGO
FREQUENCIA VANTAGEM = 'CALCULA FALECIDO'
FORMAPR
TIPO_ATRIBUT OV
O_
TIPOFREQ
VANTAGENS
JORNADA
RUBRICA
VANTAGE
M
TIPO_ATRIBUT
O_ VANTAGEM = 'PREVES NORMAL' OU 'PREVES CDT' VANTAGE
Preves INFO2 = 'NÃO' M
VANTAGENS
RUBRICA RUBRICA

VINCULOS RUBRICA = 121 E ACABA SENDO LANÇADO COMO RUBRICA = 17 E VICE- FLEX_CAM
Salário VERSA PO_02
Família
DEPENDENTE
S DTNASC
.
Servidor VANTAGEM = 'REM BRUTA EXT' VINCULADO AO ABATE TETO
es TIPO_ATRIBUT VANTAGEM = 'OPCAO PAGAMENTO' VANTAGE
Requisit O_ VANTAGEM = 'OUTRO REGIME PREVID' M
ados VANTAGEM = 'AUX ALIMEN REQUISITA'
codigo =
'1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,19,20,21,70,71,75,78,82,87,88,89,91,92,9
3,96,97,98,100,101,105,106,107,118,122,124,131'
CODIGO
LIC_AFAST
ultilizar os campos NUMFUNC,NUMVINC,DTINI,DTFIM para fazer o join com a
Servidor FICHA tabela de folha para saber se o fucionario deveria está mesmo na folha NUMFUNC
receben RUBRICA
do em NUMVINC
folha de TIPO_APOS_ codigo =
ativos '23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,47,56,64,74,84,86,90,103,121, DTINI
com CESSOES 132,133,134,140'
registros DTFIM

ultilizar os campos NUMFUNC,NUMVINC,DTINI,DTFIM para fazer o join com a


tabela de folha para saber se o fucionario deveria está mesmo na folha
FICHA
RUBRICA

RUBIRCAS
RUBRICA = '782,784,783,1936,1873' RUBIRCA
MOV_RETR
Retençã
o DTFIMCON
VANTAGENS
Judicial TR
TIPO_VANTAG
ENS

FUNCIONARIO
VINCULOS
DTFIMCON
TR
Vacânci ERG_TIPOVIN
REGIMEJU
a C_VALID_
RUBRICA=996 R
CATEGORI
ERG_TIPOVIN
A
C_VALID_

13º FICHA
RUBRICA

RUBRICAS RUBRICA = 1025( 13°)

FUNCIONARIO
S
Espírito Santo, XX de XXX de 2023.

__________________________________________________________
Fiscal
ZALOAR GOMES PINTO
SEGER/ES

__________________________________________________________
Suplente
CASSIANO SOPELETTO TONETO
SEGER/ES

___________________________________________________________
Contratada
CARLOS KEFREN DA SILVA ROCHA
GERENTE DE PROJETOS E CONTRATO
VERT SOLUÇÕES EM INFORMÁTICA LTDA

Você também pode gostar