Escolar Documentos
Profissional Documentos
Cultura Documentos
Pré-projeto de Mestrado
Candidato:
André Luiz Vale de Araújo (andre.vale@gmail.com)
Título do pré-projeto:
Aplicação de Algoritmos de Machine Learning para Adequação e Classificação de Bases
de Dados à LGPD
1. Justificativa e Motivação
Em um ambiente corporativo cada vez mais dinâmico, onde o volume dos dados aumenta a
cada dia, de forma descontrolada, assim como a velocidade do processamento dos dados e
considerando que os mesmos são capturados de fontes variadas, é crescente a preocupação
com a segurança dos dados. Diferentes países tem elaborado leis e diretrizes para o melhor
uso dos dados, especialmente dados pessoais. Nesse contexto, a Lei Geral de Proteção de
Dados (LGPD) esboça técnicas que são usadas como ferramentas para garantir o uso seguro
dos dados [1].
O objetivo principal da LGPD é regulamentar o processamento de dados pessoais. Na
era do Big Data, o processamento de dados pessoais sem que esteja de acordo com tal lei pode
trazer graves implicações. Este instrumento dá poder aos cidadãos brasileiros de identificar os
processamentos aplicados sobre os seus dados, bem como a possibilidade de retificá-los a
qualquer tempo [2]. O processamento de dados, em uma lista exemplificativa, não exaustiva
ou limitante, trata de ações diretas ou indiretas envolvendo dados pessoais, como por
exemplo, coleta, classificação, uso, acesso, extração, tratamento ou armazenamento de dados
[3].
Segundo [4], Para o tratamento de dados, toda atividade deve obedecer aos seguintes
princípios listados pela LGPD, listados na tabela 1 abaixo:
2. Revisão Bibliográfica
Atualmente, prover performance para diferentes aplicações, especialmente aquelas que
coletam alto volume de dados e onde a extração de conhecimento destes podem ser de grande
Recife, Janeiro de 2022
Aplicação de Algoritmos de Machine Learning para Adequação e Classificação de
Bases de Dados à LGPD
valia para o negócio, tem sido um desafio que as técnicas de ML têm se saído muito bem. No
intuito de melhorar o processo de avaliação, o uso de ML para classificação de dados é uma
das técnicas mais utilizadas para este propósito, usando uma abordagem de aprendizagem
supervisionada [9].
A aprendizagem supervisionada utiliza um conjunto de atributos que são rotulados, e
então, outros atributos não rotulados são comparados com esses rótulos. O principal objetivo
dos algoritmos de aprendizagem supervisionada é aprender os padrões de qual combinação de
características resulta em qual rótulo, encontrando uma relação entre os atributos de entrada e
os de saída para construir um modelo de treinamento de dados classificados [10,11]. O
algoritmo de classificação trata de prever uma classe de dados, dentro de um conjunto
analisado, com maior precisão. [10]
3. Objetivos
O objetivo deste trabalho é desenvolver uma metodologia para prover automação na
classificação de dados integrados, observando as características em comum, fornecidas
através de rótulos pré-determinadas de dados coletados por agentes e segmentando-os com o
uso de algoritmos Machine Learning com foco em aprendizagem supervisionada. Os objetivos
específicos são:
dos dados gerados, fazendo um tratamento dos registros para eliminar as inconsistências
existentes, e realizar as normalizações que se fizerem necessárias.
Fase 4: Definição do Algoritmo de Machine Learning
Dentre os principais algoritmos de Machine Learning, já citados neste pré-projeto, será
escolhido um para ser usado na metodologia proposta. Na sequência, serão feitos estudos para
os critérios de escolha a serem utilizados, como escolha dos critérios entre os algoritimos da
abordagem supervisionada.
Fase 5: Construção do Protótipo
O Projeto trata sobre o desenvolvimento de uma metodologia para otimização dos processos de
gestão da informação nos mais variados níveis permeados em uma empresa. O escopo deste
projeto está limitado ao desenvolvimento de três módulos, sendo eles: Módulo de
Monitoramento - esse módulo utilizará tecnologias de monitoramento e auditoria próprios do
Postgresql, como o log_audit, ferramenta que gera automaticamente logs de eventos no Banco
de Dados. Esses eventos serão gerados pelos simuladores. Módulo de Inteligência Artificial -
Este módulo ajuda a organizar e classificar os dados para garantir o manuseio adequado e o
melhor gerenciamento de informações pessoais. Utilizando como entrada a base de logs
analisados, uma lista será disponibilizada com “rótulos” que representarão recomendações de
classificação dos dados, usando o algoritmos de Machine Learning definido na fase anterior.
Módulo de Tráfego - Módulo que conterá um controlador de tráfego, que usando de processos
executados via virtualização, simularção acessos ao sistema, formando volume de dados que
será analisado pelo monitor de logs, este, analisado novamente e reciclando a base de logs,
servirá de nova entrada para o módulo de inteligência, que, dessa forma, irá calibrar o algoritmo
de aprendizagem de máquina, evoluindo os rótulos para formas mais complexas, formando
grupos de dados, e, assim, ciclicamente, melhorando a inteligência do sistema, até seja
estabelecido as classificações mais precisas.
Fase 6: Escrita da Dissertação
Atividade de escrita e revisão da dissertação, que será realizada em paralelo com as fases
anteriores.
6. Referências Bibliográficas
[1] https://www.scitepress.org/Papers/2020/94111/94111.pdf
[2] https://www.mdpi.com/2078-2489/12/4/168
[3] https://sol.sbc.org.br/journals/index.php/isys/article/view/1235/1784
[4] DE ALMEIDA, Ana Carolina Brito et al. LGPD em Ambientes de Bancos de Dados nas
Organizações. Sociedade Brasileira de Computação, 2019.
[5] Rajasekharan, D. (2017) “Accelerate Your Response to the EU General Data Protection
Recife, Janeiro de 2022
Aplicação de Algoritmos de Machine Learning para Adequação e Classificação de
Bases de Dados à LGPD