PreProjetoMSc Andre VersaoFinal

Aplicação de Algoritmos de Machine Learning para Adequação e Classificação de
Bases de Dados à LGPD
Pré-projeto de Mestrado
Candidato:
André Luiz Vale de Araújo (andre.vale@gmail.com)
Título do pré-projeto:
Aplicação de Algoritmos de Machine Learning para Adequação e Classificação de Bases
de Dados à LGPD
1. Justificativa e Motivação
Em um ambiente corporativo cada vez mais dinâmico, onde o volume dos dados aumenta a
cada dia, de forma descontrolada, assim como a velocidade do processamento dos dados e
considerando que os mesmos são capturados de fontes variadas, é crescente a preocupação
com a segurança dos dados. Diferentes países tem elaborado leis e diretrizes para o melhor
uso dos dados, especialmente dados pessoais. Nesse contexto, a Lei Geral de Proteção de
Dados (LGPD) esboça técnicas que são usadas como ferramentas para garantir o uso seguro
dos dados [1].
O objetivo principal da LGPD é regulamentar o processamento de dados pessoais. Na
era do Big Data, o processamento de dados pessoais sem que esteja de acordo com tal lei pode
trazer graves implicações. Este instrumento dá poder aos cidadãos brasileiros de identificar os
processamentos aplicados sobre os seus dados, bem como a possibilidade de retificá-los a
qualquer tempo [2]. O processamento de dados, em uma lista exemplificativa, não exaustiva
ou limitante, trata de ações diretas ou indiretas envolvendo dados pessoais, como por
exemplo, coleta, classificação, uso, acesso, extração, tratamento ou armazenamento de dados
[3].
Segundo [4], Para o tratamento de dados, toda atividade deve obedecer aos seguintes
princípios listados pela LGPD, listados na tabela 1 abaixo:
Tabela 1. Princípios de processamento de dados da LGPD [4]

Princípios Descrição
Finalidade Tratamento para propósitos específicos, informados ao titular,
sendo impossível tratamento posterior diferente dessas finalidades.
Adequação Compatibilidade do tratamento com as finalidades informadas ao
titular, de acordo com o contexto do tratamento.
Necessidade Escopo do tratamento é mínimo necessário para a realização de
suas finalidades, de forma proporcional e não excessiva.
Livre acesso Gratuidade e facilidade de consulta sobre a forma e a duração do
tratamento, bem como a integralidade de seus dados pessoais.
Qualidade dos dados Exatidão, clareza, relevância e atualização dos dados, de acordo
com a necessidade e para o cumprimento da finalidade de seu
tratamento.
Transparência Clareza, precisão e facilidade de acesso sobre o tratamento, e seus
agentes, observados os segredos comercial e industrial.
Segurança Medidas técnicas e administrativas para proteger os dados pessoais
de acessos não autorizados e de situações acidentais ou ilícitas de
destruição, perda, alteração, comunicação ou difusão.
Prevenção Medidas de prevenção de danos no tratamento de dados pessoais.
Não-discriminação Impossibilidade de realização do tratamento para fins
discriminatórios ilícitos ou abusivos.
Recife, Janeiro de 2022
No contexto do Princípio “Segurança”, da tabela 1, algumas categorias da segurança

de dados são enumeradas, sendo as três mais importantes: avaliação, prevenção e
monitoramento/detecção [5].
A avaliação tem relação com quão seguro os dados pessoais do titular estarão quando
eles forem processados por operações que representem um "alto risco". A avaliação deve
possuir processos sistemáticos que, com ajuda de ferramentas, consigam avaliar, identificar e
categorizar os dados pessoais. Além disso, essas ferramentas devem garantir a salvaguarda
dos dados [5].
A prevenção diz respeito à técnicas que a LGPD sugere para que ataques sejam
repelidos. Entre elas, destacam-se: anonimização, controle de acesso, e minimização de dados
[6]. A anonimização de dados é o embaralhamento dos dados, de forma que seja impossível
de um terceiro identificar auqele dado, evitando, assim, o risco de divulgação acidental ou
intencional dos dados. o controle de acesso deve evitar o comprometimento das contas de
usuário, garantindo que apenas o usuário com permissão possa ter acesso ao dado pessoal. O
controle de acesso deve ser refinado ao ponto de garantir que dados pessoais sejamn
acessados seletivamente e com uma finalidade específica. Dessa forma, o acesso a dados
pessoais por usuários não autorizados é inibido. A minimização de dados trata de garantir que
o dado coletado deve ser usado de uma forma muito modesta. É uma forma de limitar o uso
desses dados, fazendo com que sua coleta e processamento sejam limitados a um uso muito
específico. A quantidade de informação a ser extraída deve ser restita à necessidade da
atividade em questão.
O monitoramento é necessário porque nenhuma organização, mesmo com a adoção de
medidas preventivas de segurança, consegue eliminar totalmente a possibilidade de uma
violação de dados. É recomendável que esses registros devem ser mantidos centralmente sob a
responsabilidade do controlador. Por fim, o monitoramento constante das atividades de dados
pessoais é fundamental para detectar anomalias [5].
Um dos desafios para realizar a avaliação dos dados é saber o que avaliar. Isso porque
os sistemas de banco de dados tradicionais, ou seja, relacionais, armazenam informações de
maneira desordenada, fazendo que haja dados pessoais espalhados entre várias colunas e
tabelas [4]. Nesse contexto, é preciso uma interação humana muito grande para que sejam
feitas inspeções orientadas nos dados em busca de padrões para que a classficação dos dados
seja feita com base em boas decisões [7].
Machine Learning (ML) é uma técnica que permite ao sistema automaticamente extrair
conhecimento de um determinado conjunto de dados sem que intervenções humanas sejam
necessárias. Este conhecimento não é obtido através de consciência, mas identificando
padrões nos dados analisados. Dessa forma, ML pode classificar dados com base nos padrões
identificados, eliminando a necessidade de humanos aprender processos para depois
inspecionar os dados [8].
Assim, a utilização das técnicas de inteligência computacional, como ML, na
construção de classificadores de dados, visa resolver o problema na avaliação em bases de
dados com altos volumes, subsidiando a construção de ferramentas automatizadas de inspeção
e classificação de dados para adequação à LGPD, buscando diminuir a dependência de
interpretações humanas, que são sucetíveis a erros de avaliação, causando perda na acurácia
do processo.
2. Revisão Bibliográfica
Atualmente, prover performance para diferentes aplicações, especialmente aquelas que
coletam alto volume de dados e onde a extração de conhecimento destes podem ser de grande
valia para o negócio, tem sido um desafio que as técnicas de ML têm se saído muito bem. No
intuito de melhorar o processo de avaliação, o uso de ML para classificação de dados é uma
das técnicas mais utilizadas para este propósito, usando uma abordagem de aprendizagem
supervisionada [9].
A aprendizagem supervisionada utiliza um conjunto de atributos que são rotulados, e
então, outros atributos não rotulados são comparados com esses rótulos. O principal objetivo
dos algoritmos de aprendizagem supervisionada é aprender os padrões de qual combinação de
características resulta em qual rótulo, encontrando uma relação entre os atributos de entrada e
os de saída para construir um modelo de treinamento de dados classificados [10,11]. O
algoritmo de classificação trata de prever uma classe de dados, dentro de um conjunto
analisado, com maior precisão. [10]
Um dos algoritmos de ML mais utilizados para resolver problemas de classificação é o

de Árvore de Decisão (AD)[12]. Um classificador baseado em AD particiona um conjunto de
dados de treinamento de forma hierárquica, onde um referencial limite é utilizado para dividir
os dados em grupos. A divisão desse conjunto é feita de forma iterativa até que os atributos
definidos como "nós folha" armazenem uma quantidade de valores muito pequena para que
sejam usados para fins de classificação [13]. Cada nó representa atributos em um conjunto de
dados que devem ser rotulados, enquanto que cada aresta significa um valor que um nó pode
armazenar [14]. A figura 1 abaixo ilustra uma Árvore de Decisão.
Figura 1: Exemplo de Árvore de Decisão [14]
Entre os algoritmos de AD mais usados estão: Classification And Regression Tree

(CART), C4.5, CHi-squared Automatic Interaction Detector (CHAID), Quick, Unbiased and
Efficient Statistical Tree (QUEST). A relação de escolha entre esses algoritmos se dá em
função dos principais critérios de escolha a ser utilizado em cada nó, como: a forma de calcular
o particionamento do conjunto de dados a ser utilizado, a determinação das características dos
atributos de entrada e dos dependentes, a determinação do critério a ser utilizado na seleção da
coleta de atributos de entrada a cada nó e a aplicação do processo de poda [15].
Entre os algoritmos de AD mais usados estão: Classification And Regression Tree
(CART), C.45, CHi-squared Automatic Interaction Detector (CHAID), Quick, Unbiased and
Efficient Statistical Tree (QUEST). A seleção desses algoritmos se dá em relação aos
principais critérios de escolha a ser utilizado em cada nó que, entre outros, podem ser citados: a
forma de calcular o particionamento do conjunto de exemplos a ser utilizado, a determinação
de um nó como folha, a determinação do critério a ser utilizado na seleção da classe a ser

atribuida a cada nó e a aplicação do processo de poda [15].

Algoritmos de AD têm sido usados em muitas abordagens de ML, como
classificadores, porém, há vantagens e desvantagens. Entre as principais vantagens podem ser
citadas: simplicidade para compreensão do método; ajuda na escolha de aspectos profissionais,
pois fornece um valor numérico para escolhas a serem feitas; dados gerados são justificáveis e
apresentáveis; decisões mais assertivas certamente geram benefícios intangíveis, como
aumento de vendas, lucro, economia de energia, entre vários outros.
Apesar de haver inúmeros benefícios, há muitos riscos envolvidos também. Entre os
principais, podem ser citados: inexperiência do analista, especialmente em situações em que as
variáveis observadas estejam ofuscadas por alguma razão, como clima, recessão, inflação, etc.
Isso pode inibir o processo de tomada de decisão, induzindo erros nas inferências feitas; para
muitas iterações de treinamento do conjunto de dados, os cálculos de complexidade na AD
podem crescer de forma descontrolada. Apesar das desvantagens, o uso de AD em ambientes
industriais continua sendo fortemente empregado e estimulado [16].
3. Objetivos
O objetivo deste trabalho é desenvolver uma metodologia para prover automação na
classificação de dados integrados, observando as características em comum, fornecidas
através de rótulos pré-determinadas de dados coletados por agentes e segmentando-os com o
uso de algoritmos Machine Learning com foco em aprendizagem supervisionada. Os objetivos
específicos são:
 Realizar um referencial teórico sobre algoritmos de classificadores de dados com base

em Machine Learning.
 Desenvolver um método de classificação de dados utilizando classificação com base
em Machine Learning usando linguagem Python.
 Desenvolver método de coleta de informações dos usuários durante o processo através
de agentes e transformá-las em dados relevantes, usando algoritmos de Machine
Learning.
 Efetuar o monitoramento dos eventos de sistema utilizando a ferramenta log_audit,
nativa do SGBD Postgresql.
4. Metodologia e Estratégia de Ação

Para obtenção dos objetivos levantados na seção anterior, as seguintes atividades, divididas
em Fases, estão sendo executadas:
Fase 1: Estudo Inicial
Esta atividade consiste na revisão bibliográfica de conceitos fundamentais ligados a
classificadores com base em Machine Learning usando uma abordagem supervisionada.
Fase 2: Estudo Detalhado
Esta atividade diz respeito ao aprofundamento dos conceitos iniciais estudados na fase
anterior. Nessa fase, além de aprofundar os conceitos sobre classificadores para Machine
Learning, serão estudadas formas de simular tráfegos de informações com a finalidade de
coletar dados de acesso ao sistema, formando volume necessário para o tratamento dos dados
usados no classificador. Também serão estudados formas de monitoramento de ambiente, para
que sejam capturados os dados do volume gerado pelos simuladores.
Fase 3: Levantamento e Tratamento dos Dados
Inicialmente será feito um levantamento dos dados disponíveis na base de dados na empresa
HUMAX DO BRASIL, que é uma empresa desenvolvedora de gateway. Um simulador de
tráfego de informações irá formar volume para criação da massa de dados que será utilizada
neste estudo. Na sequência será feito um monitoramento do ambiente, que irá realizar captura
dos dados gerados, fazendo um tratamento dos registros para eliminar as inconsistências
existentes, e realizar as normalizações que se fizerem necessárias.
Fase 4: Definição do Algoritmo de Machine Learning
Dentre os principais algoritmos de Machine Learning, já citados neste pré-projeto, será
escolhido um para ser usado na metodologia proposta. Na sequência, serão feitos estudos para
os critérios de escolha a serem utilizados, como escolha dos critérios entre os algoritimos da
abordagem supervisionada.
Fase 5: Construção do Protótipo
O Projeto trata sobre o desenvolvimento de uma metodologia para otimização dos processos de
gestão da informação nos mais variados níveis permeados em uma empresa. O escopo deste
projeto está limitado ao desenvolvimento de três módulos, sendo eles: Módulo de
Monitoramento - esse módulo utilizará tecnologias de monitoramento e auditoria próprios do
Postgresql, como o log_audit, ferramenta que gera automaticamente logs de eventos no Banco
de Dados. Esses eventos serão gerados pelos simuladores. Módulo de Inteligência Artificial -
Este módulo ajuda a organizar e classificar os dados para garantir o manuseio adequado e o
melhor gerenciamento de informações pessoais. Utilizando como entrada a base de logs
analisados, uma lista será disponibilizada com “rótulos” que representarão recomendações de
classificação dos dados, usando o algoritmos de Machine Learning definido na fase anterior.
Módulo de Tráfego - Módulo que conterá um controlador de tráfego, que usando de processos
executados via virtualização, simularção acessos ao sistema, formando volume de dados que
será analisado pelo monitor de logs, este, analisado novamente e reciclando a base de logs,
servirá de nova entrada para o módulo de inteligência, que, dessa forma, irá calibrar o algoritmo
de aprendizagem de máquina, evoluindo os rótulos para formas mais complexas, formando
grupos de dados, e, assim, ciclicamente, melhorando a inteligência do sistema, até seja
estabelecido as classificações mais precisas.
Fase 6: Escrita da Dissertação
Atividade de escrita e revisão da dissertação, que será realizada em paralelo com as fases
anteriores.
5. Resultados e Impactos Esperados

Com a conclusão deste projeto, busca-se entregar uma metodologia de computação inteligente
e adaptada às necessidades de classificação de dados nos processos de gestão da informação
de empresas como a Humax, bem como à conformidade a leis como a LGPD. A seguir, os
principais impactos científicos e econômicos do presente pré-projeto:
Impactos Científicos: produção de relatórios técnicos e artigos científicos na área de
classificação de dados com base em Machine Learning.
Impactos Econômicos: com este trabalho visa-se disponibilizar uma base de dados tratada,
segura, robusta e adequada às exigências atuais, as quais consideram de suma importância a
confidencialidade, discrição e privacidade total dos clientes, garantindo, assim, um ambiente
que forneça recursos dinâmicos quanto as experiências de uso, eficaz quanto a automação dos
processos, enquadráveis a LGPD e inteligente por fornecer parâmetros de referências para
gestão e conter a autossuficiência para extração de dados, análises e segurança nos fluxos de
acesso.
6. Referências Bibliográficas
[1] https://www.scitepress.org/Papers/2020/94111/94111.pdf
[2] https://www.mdpi.com/2078-2489/12/4/168
[3] https://sol.sbc.org.br/journals/index.php/isys/article/view/1235/1784
[4] DE ALMEIDA, Ana Carolina Brito et al. LGPD em Ambientes de Bancos de Dados nas
Organizações. Sociedade Brasileira de Computação, 2019.
[5] Rajasekharan, D. (2017) “Accelerate Your Response to the EU General Data Protection
Regulation (GDPR)”, Oracle White Paper, disponível em:

https://www.oracle.com/technetwork/database/security/wp-security-dbsec-
gdpr3073228.pdf, acessado em outubro de 2019.
[6] Brasil (2018).LEI Nº 13.709, DE 14 DE AGOSTO DE 2018.Avail-able
at:http://www.planalto.gov.br/ccivil_03/_ato2015-2018/2018/lei/L13709.htm. Accessed:
05/05/2021 (in Brazilian Portuguese).
[7] I.H.Witten, E. Frank, M.A. Hall, and C.J. Pal, “Data Mining: Practical machine learning
tools and techniques,” Morgan Kaufmann. 2016.
[8] https://dl.acm.org/doi/pdf/10.1145/507338.507355
[9] https://www.mdpi.com/1996-1073/9/8/607
[10] https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8548804
[12] ASSEGIE, Tsehay Admassu; NAIR, Pramod Sekharan. Handwritten digits recognition
with decision tree classification: a machine learning approach. International Journal of
Electrical and Computer Engineering (IJECE), v. 9, n. 5, p. 4446-4451, 2019.
[14] MAHESH, Batta. Machine Learning Algorithms-A Review. International Journal of
Science and Research (IJSR).[Internet], v. 9, p. 381-386, 2020.
[15] https://www.jastt.org/index.php/jasttpath/article/view/65
[16] http://wwjmrd.com/upload/an-insight-into-decision-tree-analysis_1513336965.pdf

PreProjetoMSc Andre VersaoFinal

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

PreProjetoMSc Andre VersaoFinal

Enviado por

Direitos autorais:

Formatos disponíveis

Aplicação de Algoritmos de Machine Learning para Adequação e Classificação de

Bases de Dados à LGPD

Tabela 1. Princípios de processamento de dados da LGPD [4]

No contexto do Princípio “Segurança”, da tabela 1, algumas categorias da segurança

Um dos algoritmos de ML mais utilizados para resolver problemas de classificação é o

Figura 1: Exemplo de Árvore de Decisão [14]

Entre os algoritmos de AD mais usados estão: Classification And Regression Tree

Recife, Janeiro de 2022

atribuida a cada nó e a aplicação do processo de poda [15].

 Realizar um referencial teórico sobre algoritmos de classificadores de dados com base

4. Metodologia e Estratégia de Ação

5. Resultados e Impactos Esperados

Regulation (GDPR)”, Oracle White Paper, disponível em:

Recife, Janeiro de 2022

Você também pode gostar