Você está na página 1de 30

Machine Translated by Google

Inteligência artificial e privacidade


Relatório, janeiro de 2018
Machine Translated by Google

2
Machine Translated by Google

Conteúdo
SOBRE ESTE RELATÓRIO ................................................ .................................................. ................................................ 4

Fontes jurídicas e uso da terminologia ..................................... .................................................. ................. 4

INTELIGÊNCIA ARTIFICIAL E PROTEÇÃO DE DADOS ............................................. .................................................. ......5

COMO FUNCIONA A INTELIGÊNCIA ARTIFICIAL? .................................................. .................................................. ........7

Aprendizado de máquina.................................................. .................................................. ................................................7 Resultados de

aprendizado................................................. .................................................. ...........................................10 Quanto mais dados de

treinamento, melhor? .................................................. .................................................. ............... 11

A Caixa Preta.................................................. .................................................. .................................................. .12

A INTELIGÊNCIA ARTIFICIAL ATENDE O GDPR ............................................. .................................................. ...........15

Princípios fundamentais da proteção de dados ............................................. .................................................. ......15

O viés algorítmico atende ao princípio da justiça .................................... .................................................. ...16 A inteligência artificial

atende ao princípio da limitação de finalidade ...................................... ..............................16 A inteligência artificial encontra a minimização

de dados.............. .................................................. ................................18

A caixa preta atende ao princípio do processamento transparente......................................... ................................19

CONTROLANDO OS ALGORITMOS ................................................ .................................................. ........................... 23

A competência de supervisão da DPA ............................................. .................................................. ................ 23 Investigando o uso de

IA.......................... .................................................. .................................................. 23 Quão profunda pode ir uma

investigação? .................................................. .................................................. ............. 23 Como inspecionar uma “caixa

preta”? .................................................. .................................................. ..................... 24

SOLUÇÕES E RECOMENDAÇÕES................................................... .................................................. ...................... 25

Avalie o impacto da proteção de dados – e crie privacidade em seu sistema!...................... ............... 25 Ferramentas e métodos para

uma boa proteção de dados em IA......................... .................................................. .............. 26 Recomendações para desenvolvimento

e uso de IA que respeitem a privacidade .............. ................................... 28


Machine Translated by Google

o relatório considera o papel da DPA como órgão de


Sobre este relatório supervisão das aplicações de IA. Finalmente, fornecemos uma série de
exemplos de métodos e ferramentas e recomendações para
salvaguardar a privacidade no desenvolvimento e utilização de
A maioria das aplicações de inteligência artificial (IA) requer enormes
IA.
volumes de dados para aprender e tomar decisões inteligentes.
A inteligência artificial está no topo da agenda na maioria dos setores
O público-alvo deste relatório consiste em pessoas que trabalham ou
devido ao seu potencial para
que por outras razões estão interessadas em
melhores serviços, avanços comerciais e ganhos financeiros. No
inteligência artificial. Esperamos que engenheiros, cientistas
futuro enfrentaremos uma série de dilemas jurídicos e éticos na busca
de um equilíbrio entre avanços sociais consideráveis em sociais, advogados e outros especialistas considerem este relatório
nome da IA útil.

e direitos fundamentais de privacidade. Este relatório tem como


A produção deste relatório foi um processo de aprendizagem para o
objetivo descrever e ajudar-nos a compreender como a nossa
pessoal da DPA norueguesa, e aprendemos muito com as
privacidade é afetada pelo desenvolvimento e aplicação da inteligência
experiências e avaliações de inteligência artificial e proteção de
artificial.
dados das partes interessadas com quem estivemos em contacto
durante o processo. Estamos muito gratos à Inmeta, à Privacy
A Autoridade Norueguesa de Proteção de Dados (DPA)
International, à Autoridade de Supervisão Financeira da Noruega, ao
acredita que é imperativo que aprofundemos o nosso
Google, ao Sintef, à Universidade Norueguesa de Ciência e
conhecimento sobre as implicações da inteligência artificial para a
Tecnologia (NTNU), ao Big Insight da Universidade de Oslo e ao
privacidade e as discutamos, não apenas para salvaguardar o
Centro Norueguês de Computação, Sparebank 1 Stavanger, ao
direito à privacidade do indivíduo, mas também para cumprir os
Gabinete do Comissário de Informação no Reino Unido,
requisitos da sociedade em geral.
Gabinete do Comissário para a Privacidade no Canadá, Gabinete do
Auditor Geral da Noruega e Centro de Investigação em Inteligência
Se as pessoas não puderem confiar que as informações sobre elas
Artificial da Universidade de Agder.
estão a ser tratadas de forma adequada, isso poderá limitar a sua
vontade de partilhar informações – por exemplo, com o seu médico ou
nas redes sociais. Se nos encontrarmos numa situação em que
sectores da população se recusam a partilhar informações porque
sentem que a sua integridade pessoal está a ser violada, seremos Fontes legais e uso de
confrontados com grandes desafios à nossa liberdade de expressão
e à confiança das pessoas nas autoridades. A recusa de terminologia
partilhar informações pessoais também representará um desafio
considerável no que diz respeito à utilização comercial de tais dados Neste relatório utilizamos inteligência artificial como um termo coletivo
em sectores como os meios de comunicação social, o comércio que descreve os seus vários aspectos, incluindo aprendizagem

retalhista e os serviços financeiros. automática e aprendizagem profunda.

Este relatório desenvolve os pareceres jurídicos e as tecnologias A base para este relatório é o Regulamento Geral de Proteção

descritas no relatório de 2014 «Big Data – de Dados (GDPR) da UE. Este Regulamento será consagrado na lei

princípios de proteção de dados sob pressão»1 . Neste norueguesa sob a forma de uma Lei de Dados Pessoais que entrará em

relatório iremos fornecer maiores detalhes técnicos na vigor em 25 de maio de 2018.2

descrição da inteligência artificial (IA), ao mesmo tempo que analisamos Também nos baseámos nos Considerandos do

mais de perto quatro desafios relevantes da IA associados aos princípios Regulamento para interpretar o conteúdo dos artigos.

de proteção de dados incorporados no GDPR: Os considerandos não são juridicamente vinculativos, mas
explicam o conteúdo dos artigos.

• Justiça e discriminação
Além disso, também citámos as declarações feitas pelo Grupo de
• Limitação da finalidade •
Minimização de dados Trabalho do Artigo 29.º e as directrizes que definiu para decisões e
perfis automatizados individualmente.3 O Grupo de
• Transparência e direito à informação
Trabalho do Artigo 29.º é o órgão consultivo mais graduado da Comissão
A lista acima não é exaustiva, mas representa uma seleção Europeia em matéria de protecção de dados e segurança da
de preocupações em matéria de proteção de dados que, na nossa informação.
opinião, são mais relevantes para a utilização da IA atualmente. Além disso,

1 https://www.datatilsynet.no/om-personvern/rapporter-og-
3 http://ec.europa.eu/newsroom/just/item-detail.cfm?item_id=50083
utredninger/temarapporter/big-data/

2
Texto do RGPD: http://eur-lex.europa.eu/
legal-content/EN/TXT/PDF/?uri=OJ:L:2016:119:FULL
Machine Translated by Google

Inteligência artificial e proteção


de dados

Inteligência artificial (IA) é o conceito usado para descrever poder de processamento e acesso a capacidade de armazenamento
sistemas de computador que são capazes de aprender com suas maior e mais barata. Big Data refere-se frequentemente a vastos
próprias experiências e resolver problemas complexos em diferentes volumes de dados, extraídos de múltiplas fontes, muitas vezes em
situações – habilidades que antes pensávamos serem exclusivas da tempo real.4 Estes enormes fluxos de dados podem ser utilizados
humanidade. E são os dados, em muitos casos dados pessoais, que em benefício da sociedade através da análise e da descoberta
alimentam estes sistemas, permitindo-lhes aprender e tornar-se de padrões e ligações.
inteligentes.
É aqui que a IA pode fazer a diferença. Embora os métodos
O desenvolvimento da IA registou alguns avanços analíticos tradicionais precisem ser programados para
importantes nos últimos anos e o seu potencial parece ser promissor: encontrar conexões e links, a IA aprende com todos os dados que
um setor público melhor e mais eficiente, novos métodos de vê. Os sistemas informáticos podem, portanto, responder
proteção climática e ambiental, uma sociedade mais segura e continuamente a novos dados e ajustar as suas análises sem
talvez até uma cura para o cancro. intervenção humana.
Assim, a IA ajuda a remover as barreiras técnicas que os métodos
tradicionais enfrentam ao analisar Big Data.
Por outras palavras, estamos a embarcar num empreendimento
que terá, sem dúvida, um impacto considerável na sociedade.
Por conseguinte, é importante que nos envolvamos em discussão Maior demanda por dados, regulamentações mais rigorosas
agora. De que tipo de quadro regulamentar precisamos para aproveitar
as oportunidades oferecidas pela IA de uma forma segura e justa? Os novos regulamentos de proteção de dados que entrarão em
Pois não podemos escapar ao facto de que a utilização da IA levanta vigor em maio de 2018 reforçarão os nossos direitos de privacidade,
uma série de preocupações no que diz respeito à ética, segurança, ao mesmo tempo que intensificarão as exigências impostas a
responsabilidade legal, etc. Este relatório é dedicado a uma quem processa esses dados. As organizações terão mais
dessas preocupações: a utilização de dados pessoais na IA e a responsabilidade pelo tratamento de dados pessoais de
questão da privacidade. acordo com o regulamento e os requisitos de transparência serão
mais rigorosos.

Do inverno à primavera – porquê agora? Ao mesmo tempo que as exigências se intensificam, a procura
por dados cresce. Os sistemas baseados em IA só podem tornar-
O conceito de IA era conhecido já na década de 1950 como uma se inteligentes se tiverem dados relevantes suficientes para
tecnologia na qual as pessoas tinham grandes esperanças de sucesso. aprender.
O progresso inicial alcançado foi, no entanto, seguido por muitas
décadas que são frequentemente chamadas de IA Um chatbot inteligente (um programa de computador com o
Inverno porque as expectativas iniciais não foram satisfeitas. qual as pessoas podem interagir por meio da fala normal ou por meio
Nos últimos anos, porém, testemunhamos a chegada da de informações escritas) analisa todas as informações que lhe são
primavera. fornecidas – uma combinação de perguntas feitas pelos
clientes e respostas comunicadas pelo atendimento ao cliente. A partir
Hoje vemos que a IA é utilizada para resolver tarefas específicas da sua análise, o chatbot consegue “entender” o que
como, por exemplo, reconhecimento de imagem e fala. um cliente está a perguntar e, portanto, é capaz de dar uma resposta
Isso geralmente é chamado de IA especializada . IA geral refere-se significativa. Quanto maior for o volume de informação em que
a sistemas que são tão versáteis quanto os humanos quando se o chatbot puder basear a sua análise, melhor e mais precisa será
trata de aprendizagem e resolução de problemas. Mas a resposta que dará.
provavelmente serão necessárias várias décadas até que isto seja alcançado.

A primavera da IA surgiu graças à disponibilidade de enormes


quantidades de dados, juntamente com um aumento na

4 https://ico.org.uk/for-organisations/guide-to-data-protection/big-data/
Machine Translated by Google

Inteligência artificial, aprendizado de máquina e profundidade


aprendizado

Inteligência artificial, aprendizado de máquina e aprendizado


AlfaGo
profundo são termos frequentemente usados como sinônimos, embora
sejam conceitualmente imprecisos. A ilustração mostra a relação entre os AlphaGo é o programa de computador que derrotou
termos e seu desenvolvimento ao longo do tempo. um dos melhores jogadores do mundo do jogo de
tabuleiro chinês Go.

Go é um jogo com tantas combinações


possíveis que atualmente é impossível calculá-las todas, e
o que era necessário era, portanto, uma abordagem do
jogo mais inteligente do que a capacidade básica de cálculo
poderia oferecer. AlphaGo foi desenvolvido pela
Deepmind, que é especialista em aprendizagem
profunda e pode aplicá-lo como parte do programa.

O programa foi desenvolvido revisando dados históricos


extraídos de muitos jogos jogados por humanos.
Depois o programa jogou contra si mesmo para aprender
mais sobre os movimentos e estratégias que produziram
os melhores resultados.

Inteligência artificial é um termo abrangente que abrange muitos tipos


diferentes de aprendizado de máquina. O aprendizado de máquina
Um dos resultados mais interessantes, além da vitória
pode ser descrito como “um conjunto de técnicas e ferramentas que
do AlphaGo, foi que o programa adotou novas
permitem aos computadores ‘pensar’ criando
estratégias até então desconhecidas. Eles foram
algoritmos matemáticos baseados em dados acumulados”. 5
publicados e agora são usados por jogadores de
O sistema pode raciocinar independentemente da entrada humana e
Go.
pode construir novos algoritmos.
(Kilde: https://www.blog.google/topics/machine-
O aprendizado profundo é uma forma de aprendizado de máquina. Alguns learning/alphago-machine-learning-game-go/ )
tipos de aprendizagem profunda baseiam-se nos mesmos princípios do
rede neural do cérebro. Sistemas deste tipo são frequentemente
baseados em um conjunto conhecido de dados de treinamento que ajudam
os algoritmos de autoaprendizagem a realizar uma tarefa. Isto
está condicionado à própria rede ser capaz de determinar forma restritiva e que as técnicas frequentemente utilizadas são limitadas.
a resposta correta para resolver a tarefa. 6 Este método Isto corresponde bastante bem ao portfólio limitado de casos da
foi crucial para permitir que o programa de computador AlphaGo derrotasse Autoridade de Proteção de Dados e aos pedidos de orientação recebidos
um dos melhores jogadores chineses do mundo em relação à IA e à privacidade.
jogo de tabuleiro Go (ver caixa de fatos). Este foi considerado um marco
importante no desenvolvimento contínuo da IA.
Ainda estamos na fase inicial do desenvolvimento da IA e este é o
momento certo para garantir que as tecnologias de IA
É possível combinar inteligência artificial e proteção de cumprir as regras que a sociedade estabelece. A resposta à questão de
dados adequada? saber se é possível utilizar IA e proteger os dados das pessoas ao fazê-
lo é sim. É possível e necessário para salvaguardar os direitos
Ao compilar este relatório, conversamos com vários desenvolvedores e fundamentais de proteção de dados pessoais.
usuários de IA. A impressão que nos resta é que a maioria dos setores
adotou a IA de uma forma relativamente

5 https://iq.intel.com/artificial-intelligence-and-machine-learning/ 6 https://no.wikipedia.org/wiki/Nevralt_nettverk,
https://en.wikipedia.org/wiki/Deep_learning
Machine Translated by Google

Como funciona a
inteligência artificial?

Existem dois aspectos principais da inteligência artificial que são de 1. A aprendizagem começa com informações selecionadas
particular relevância para a privacidade. A primeira é que o próprio contendo padrões ou semelhanças.
software pode tomar decisões e a segunda é que o sistema se 2. Utilizando aprendizado de máquina, os padrões encontrados
nas informações são identificados.
desenvolve aprendendo com a experiência.
3. É gerado um modelo que pode reconhecer os padrões
Para que um sistema de computador aprenda, ele precisa que surgem quando novos dados são processados
de experiência, e obtém essa experiência a partir das pelo modelo.

informações que lhe fornecemos. Esta entrada pode estar em Modelo é um termo genérico para o resultado final da
vários formatos diferentes. Se for procurado um sistema que realize
aprendizagem. Existem muitos tipos diferentes de modelos e são
apenas reconhecimento e análise de imagens, a entrada de
estes que são usados em aplicações comerciais —
dados experienciais consistirá naturalmente em imagens. Para
como prever o tipo de série de TV transmitida que um
outras tarefas os dados de entrada consistirão em texto, fala ou
consumidor prefere. O que esses modelos têm em comum é que
números. Alguns sistemas utilizam dados pessoais, enquanto outros
contêm dados de treinamento essenciais. Como os dados que o
sistemas utilizam dados que não podem ser vinculados a indivíduos.
modelo irá processar no futuro raramente serão completamente
idênticos aos dados de treino, é necessária uma
generalização. Certos dados que se desviam do volume principal de
dados de treinamento serão, portanto, geralmente removidos do
Aprendizado de máquina modelo.

Para entender por que a IA precisa de enormes volumes de dados, O modelo funciona assim: (Ilustrado pela Figura 1, de cima para
é necessário entender como o sistema aprende. baixo)

1. O modelo recebe dados semelhantes aos utilizados para

O desenvolvimento da IA requer a entrada de dados experienciais. aprendizagem.


O aprendizado de máquina geralmente ocorre desta forma: 2. O modelo decide com qual padrão os novos dados mais se
assemelham.
(Ilustrado pela Figura 1, da esquerda para a direita):
3. O modelo produz um resultado estimado.
Machine Translated by Google

Existem diversas formas de aprendizagem que podem ser utilizadas, outros gatos além dos mostrados originalmente. De forma semelhante,
dependendo se a informação foi rotulada ou não. Os dados rotulados são um modelo de aprendizado de máquina desenvolverá a mesma capacidade de
dados etiquetados: se os dados consistirem em imagens, os rótulos ou reconhecer objetos com base em imagens rotuladas.
etiquetas podem ser, por exemplo, género, etnia, cão ou gato.
Se estivermos trabalhando com um conjunto de dados e desejarmos separar
homens e mulheres, podemos usar diferentes recursos que sejam relevantes.
Abaixo listamos as principais formas de aprendizagem e descrevemos como Os recursos utilizados dependerão dos dados básicos disponíveis. Por
os dados são utilizados nelas. exemplo, as mulheres vivem mais do que os homens, em média, pelo
que a duração da vida é relevante na diferenciação entre géneros. Esta
Aprendizagem supervisionada característica irá, no entanto, revelar-se um tanto restrita na maioria
dos casos, e é mencionada aqui apenas como exemplo. Se a base de
A aprendizagem supervisionada envolve a utilização de dados rotulados, por dados consistir em imagens, então o comprimento do cabelo, ou o uso de
meio dos quais a supervisão é realizada. O conjunto de dados é maquilhagem ou jóias, podem ser características relevantes. O exemplo
dividido em dois, geralmente uma divisão 80/20, com 80% dos dados usados abaixo ilustra como dois recursos diferentes são usados na aprendizagem.
para treinar o modelo. Os 20% restantes são usados para verificar
a precisão com que o modelo processa dados desconhecidos. Não é bom se o
modelo funcionar com precisão usando os dados de treinamento e de
maneira imprecisa usando dados novos e desconhecidos. Se o modelo A aprendizagem ocorre da seguinte forma (Ilustrado pela figura 2, da
estiver muito bem ajustado aos dados de treinamento, o que chamamos de esquerda para a direita):
overfitting, ele não produzirá resultados satisfatórios utilizando novos
dados. Portanto, o modelo requer um certo grau de generalização. 1. Um conjunto de dados rotulados é usado.

2. Dependendo do tipo de dados, e do que é considerado relevante, são


selecionadas as características (círculos e triângulos) a serem
utilizadas para aprendizagem. Os dados são rotulados para
Os dados de treinamento podem consistir, por exemplo, em imagens rotuladas indicar a resposta certa.
com informações sobre o conteúdo de cada imagem. 3. É construído um modelo que, com base nas mesmas
A aprendizagem supervisionada pode ser comparada ao ensino de uma características, produzirá uma etiqueta.
criança. Por exemplo, apontamos vários objetos para a criança e damos
nomes a eles. Se mostrarmos vários gatos a uma criança, ela aprenderá
gradualmente a reconhecer
Machine Translated by Google

Muitas vezes também saberemos quais características dos dados rotulados seria que esses dados, na medida do possível, fossem classificados em dois
são mais decisivos para a categorização correta ou para produzir o grupos – um composto por imagens de cães e outro por imagens de gatos.
resultado correto. É importante contar com pessoas com bons
conhecimentos na área em questão para identificar as características mais
relevantes. A seleção correta de características relevantes pode ser muito A aprendizagem prossegue da seguinte forma (Fig.3, da esquerda para a direita):

mais importante do que a quantidade de dados, questão que


abordaremos mais tarde. Uma vantagem dos dados rotulados é que eles 1. É usado um conjunto de dados no qual deve haver um

permitem uma fácil verificação da precisão do modelo. certo número de semelhanças, ou padrões, para que seja
significativo.
2. Os padrões são revelados.

Quando utilizamos o modelo, ocorre o seguinte (Fig. 2, de cima para baixo): 3. É construído um modelo que pode reconhecer e
diferenciar padrões.

Isto é o que acontece ao usar o modelo (Fig. 3, de cima para baixo):


1. Novos dados do mesmo tipo dos dados de treinamento são
inseridos no sistema.
2. Os recursos relevantes são inseridos no modelo e
1. Novos dados não rotulados do mesmo tipo dos dados de
processado.
treinamento são inseridos no sistema.
3. O modelo produz um resultado que corresponde aos rótulos
2. O modelo identifica os padrões de dados.
utilizados no treinamento.
3. O modelo informa a qual grupo os novos dados pertencem.

Aprendizagem não supervisionada

Uma desvantagem deste método é que o modelo não pode colocar os


Na aprendizagem não supervisionada, são utilizados dados que não foram
dados em outros grupos além daqueles descobertos durante o processo de
pré-rotulados, pois o objetivo é que o sistema agrupe dados semelhantes.
aprendizagem. É portanto muito importante que a base de formação seja
Se, por uma questão de simplicidade, considerarmos novamente os
representativa.
dados que consistem em imagens de cães e gatos, o objetivo

Aprendizagem por reforço


Machine Translated by Google

10

Esta forma de aprendizagem baseia-se na tentativa e erro, bem como As árvores de decisão representam uma exceção, pois contêm um
na otimização, à medida que o modelo aprende quais ações são grau variável da base de dados do modelo. Os limites aqui
direcionadas ao objetivo. Isso significa que menos dados, ou nenhum dependem se a árvore é “podada” após o aprendizado ou se uma
dado, são necessários para o sistema aprender. limitação de nível é definida para o aprendizado. Normalmente será
escolhido um ou outro, pois o modelo deve generalizar e não
sobreajustar. Num modelo de aprendizagem profunda, os dados
básicos serão representados como valores numéricos na rede neural.
Portanto, não deverá ser possível recuperar quaisquer dados
Alfa Go Zero pessoais utilizados para treinar o modelo. Examinaremos esses
modelos mais de perto um pouco mais adiante, na seção intitulada
Anteriormente mencionamos AlphaGo como Caixa Preta.

um exemplo de aprendizado de máquina. AlphaGo foi


treinado pela primeira vez usando um conjunto de Uso do modelo – estático e dinâmico (offline/online)
dados composto por 30.000 jogos de Go. Para
Um modelo pode ser usado de duas maneiras. A primeira maneira é
melhorar ainda mais a capacidade do AlphaGo de
usar um modelo estático ou off-line, que não mudará com
jogar Go, ele foi programado para jogar contra
o uso. Um modelo estático sempre funcionará, como o nome
si mesmo. Sua base experiencial poderia
sugere, da mesma maneira e produzirá os mesmos resultados durante
ser ampliada consideravelmente por meio de
todo o seu ciclo de vida. Todo o treinamento do novo modelo
tentativa e erro, sem a necessidade de obter dados de
ocorrerá em um ambiente de teste e todas as alterações exigirão
mais jogos. Também deu ao AlphaGo a oportunidade
que o modelo seja substituído por uma nova versão. Isso
de descobrir movimentos e estratégias que não
significa que é mantido controle total do modelo em uso.
estavam no conjunto de treinamento original.

A última versão – AlphaGo Zero – foi pensada


A outra possibilidade é proporcionada por um modelo dinâmico
para começar a jogar sem usar dados de
ou online. O modelo é usado de forma semelhante ao modelo
treinamento. Ele foi programado apenas com as regras
estático. Porém, a diferença é que o modelo dinâmico é capaz de
do Go e não recebeu nenhuma informação sobre
aproveitar os dados de entrada para melhorar e se ajustar às
jogos disputados anteriormente. Depois, aprendeu a
mudanças. Isto pode ser necessário, por exemplo, no âmbito da
jogar contra si mesmo. Após 40 dias, ele conseguiu
monitorização de transações com cartões de crédito, a
vencer a versão anterior do AlphaGo por 100-0.
fim de revelar fraudes. As transacções podem mudar de acordo com
Também é interessante notar que a versão Zero do
a situação de vida do utilizador, ou em relação ao seu trabalho,
AlphaGo requer muito menos poder computacional
por exemplo ocorrendo em locais completamente novos.
para alcançar esses resultados.
Esses novos padrões de uso podem muito bem ser considerados
suspeitos por um modelo estático e potencialmente resultar em um
(Fonte: https://deepmind.com/blog/alphago-zero- cartão de crédito bloqueado. Um modelo pode, portanto, tornar-se
learning-scratch/) menos preciso ao longo do tempo se não for atualizado
continuamente.

Um filtro de spam fornece um bom exemplo de uma área típica de


aplicação para um modelo dinâmico que pode ser melhorado
pelo usuário indicando e-mails que foram rotulados incorretamente.
Resultados da aprendizagem A desvantagem dos modelos dinâmicos é que há menos controle
sobre o desenvolvimento do modelo e as alterações têm efeito
Independentemente dos algoritmos ou métodos utilizados imediato. Um bom exemplo disso é o chatbot Tay da Microsoft, que
para aprendizado de máquina, o resultado será um “modelo”, que é aprendeu com conversas com internautas. Após um breve período
na verdade um termo genérico para todo aprendizado de máquina. no Twitter, o chatbot foi descrito pela mídia como um “robô sexual
O modelo pode então ser alimentado com novos dados para amante de Hitler”. A Microsoft decidiu remover o Tay apenas 24 horas
produzir o tipo de resultado desejado. Isto pode ser, por após seu lançamento.7
exemplo, uma rotulagem, ou um grau de probabilidade, ou similar.

Vale a pena notar que o modelo normalmente não contém os dados


de origem diretamente. Ele contém uma representação
agregada de todos os dados usados para treinar o sistema.

7 http://www.telegraph.co.uk/technology/2016/03/24/microsofts-teen-girl-
ai-turns-into-a-hitler-loving-sex-robot-wit/
Machine Translated by Google

11

Quanto mais dados de


treinamento, melhor? Exemplo

Um hospital dos EUA realizou um ensaio para categorizar


Quanto mais dados de treinamento pudermos alimentar o modelo,
o risco de complicações em pacientes que
melhor será o resultado: este é um mantra típico frequentemente
sofrem de pneumonia. O resultado foi que os pacientes
ouvido em conexão com aprendizado de máquina. Na maioria dos
que sofriam de asma e pneumonia foram classificados
casos, o computador exigirá muito mais dados do que os humanos para
como pacientes de baixo risco – para grande surpresa
aprender a mesma coisa. Atualmente, isto estabelece um limite
dos médicos.
para a aprendizagem automática e é compensado pela utilização
de quantidades consideráveis de dados – muitas vezes superiores
Embora esses pacientes corressem um risco maior,
aos que um ser humano seria capaz de gerir.
sua taxa de sobrevivência foi melhor. O que o
modelo não foi capaz de detectar foi que o risco
aparentemente baixo era resultado de esses
É importante notar que a qualidade dos dados de treinamento, bem como
pacientes receberem melhores cuidados e
os recursos utilizados, podem, em muitos casos, ser
tratamento mais intensivo.
substancialmente mais importantes do que a quantidade. Ao treinar um
modelo, é importante que a seleção dos dados de treinamento seja
Isto ilustra os riscos inerentes à utilização de dados
representativa da tarefa a ser resolvida posteriormente. Enormes
sem conhecimento do domínio e que o conjunto de
volumes de dados pouco ajudam se cobrirem apenas uma fração daquilo
dados básico nem sempre conta toda a história.
em que o modelo trabalhará posteriormente.

(Kilde:
A rotulagem correta é extremamente importante ao conduzir https://royalsociety.org/~/media/policy/projects/machine-
learning/publications/machine-learning-report.pdf)
o aprendizado supervisionado. Se os dados forem rotulados
incorretamente, haverá obviamente um impacto negativo no resultado
do treinamento. Como diz o ditado: entra lixo, sai lixo.

Uma desvantagem de reduzir o âmbito da selecção de


Amplitude e profundidade dos dados características é que se podem perder possíveis correspondências,
ou padrões, que não eram previamente conhecidos ou que não tinham
A eficiência do aprendizado de máquina pode ser fortemente sido pensados. Em parte, é por isso que é necessário incluir pessoas
influenciada pela forma como os dados básicos são apresentados com conhecimento do domínio nesta fase do projeto. Deve-se também
aos algoritmos que desenvolvem modelos e também pelos considerar o que constitui um resultado suficientemente bom.
recursos que se escolhe usar.

Assim como uma planilha, um conjunto de dados para aprendizado de Vale a pena mencionar aqui que o aprendizado profundo é uma
máquina pode consistir em linhas e colunas. Se houver dados exceção nesse aspecto. A seleção e o ajuste de recursos não são tão
relacionados a pessoas, as colunas poderão indicar a idade, o importantes como em outros métodos de aprendizagem. Por exemplo,
sexo, o endereço, o estado civil, a altura, o peso, a a seleção de recursos é conduzida por meio de pesos de valor em
nacionalidade de uma pessoa, etc. As linhas representarão uma rede neural. A desvantagem de não fazer seleções significa
pessoas individuais. Deve-se levar em consideração a quantidade de que é necessário um volume muito maior de dados de treinamento.
informações pessoais necessárias para treinar os modelos
desejados, bem como sua relevância para o modelo escolhido.
propósito.
Engenharia de recursos
Ao selecionar características relevantes, muitas vezes haverá
necessidade de pessoas que sejam especialistas nas áreas relevantes. Um fator importante para alcançar bons resultados é a forma como o
Nem sempre os dados básicos contam toda a história. conjunto de dados é apresentado. Correlações relevantes podem
ser ocultadas se os dados não forem utilizados adequadamente.
Uma boa seleção é importante, caso contrário corre-se o risco de acabar Em muitos casos, há muito mais a ganhar com a utilização
com muitas funcionalidades, ou o que os especialistas chamam de “A inteligente de dados do que com o aumento da quantidade de dados.
Maldição da Dimensionalidade”. Simplificando, isso significa que um
número excessivo de recursos resultará na perda de correspondências As datas são um exemplo. Consideremos a data 1.10.2017,
entre todos os dados não correspondentes. Isto significará que serão que nos indica que é o primeiro dia do mês e o décimo mês do ano.
necessários enormes volumes de dados a título de compensação. Poderia muito bem acontecer que a informação fosse mais útil se
pudéssemos
Machine Translated by Google

12

posso dizer que é importante garantir que tudo seja dimensionado


de forma semelhante. Se houver feições onde uma mudança de 0,1
significa tanto quanto uma mudança de 1000 para outra feição,
Imposto Norueguês é essencial que elas sejam realinhadas na mesma escala.
Administração
Já é suficiente?
A Administração Fiscal Norueguesa (NTA)
desenvolveu uma ferramenta preditiva para ajudar a Pode ser difícil, no início, estimar a quantidade de dados de
selecionar quais declarações fiscais verificar em
aprendizagem que serão necessários. Dependerá do tipo de
busca de erros ou evasão fiscal. Eles testaram aprendizado de máquina empregado, do número e das
cerca de 500 variáveis diferentes que
características dos recursos selecionados e da qualidade dos dados
revelaram informações sobre a demografia, básicos. Também é relevante aqui o grau de precisão que um
histórico de vida e outros detalhes de um modelo necessita para que o objetivo seja alcançado.
contribuinte em suas declarações fiscais. Apenas Se uma pessoa que faz o trabalho tiver 75% de precisão, isso será
30 variáveis foram incorporadas ao modelo suficiente para o modelo? Se a meta for 100% de precisão, será
final. Incluem detalhes sobre as deduções feitas no necessária uma quantidade substancial de dados.
ano atual e anterior, idade, detalhes financeiros como
rendimentos e ativos, bem como detalhes sobre A área de aplicação definirá o que é razoável ao usar informações
itens individuais da declaração de imposto de renda. pessoais como dados de treinamento. O objetivo de diagnosticar
doenças fatais seria perseguido de forma diferente do que se
Isto fornece um bom exemplo de como nem buscasse traçar o perfil de alguém para direcionar anúncios para
sempre é necessário utilizar todos os dados essa pessoa com a maior precisão possível.
disponíveis para atingir o objetivo desejado.
Sem saber como a NTA decidiu a seleção de
funcionalidades para o seu projeto, podemos Se seguirmos o princípio da minimização de dados, seria natural
constatar que estabeleceram limites e confirmam que começar com uma quantidade restrita de dados de treinamento
isso foi suficiente para atingirem o seu objetivo.
e depois monitorar a precisão do modelo à medida que ele é
alimentado com novos dados. A curva de aprendizagem é uma
ferramenta utilizada para avaliar isto.8 Estas permitem ver, tendo
(Fonte: Skatteetatens Analysenytt 1-2016,
http://www.skatteetaten.no/globalassets/pdfer/skatteetate começado com um conjunto limitado de dados, quando uma curva
ns_analysenytt/analysenytt-1_2016_web_hele.pdf) se achata e novos dados deixam de acrescentar valor à formação.

converta-o para mostrar que dia da semana é: um domingo neste A caixa preta
caso.

Uma preocupação em relação ao aprendizado de máquina é que


Na Noruega, onde existem quatro estações bastante distintas, nem sempre se sabe como o resultado é produzido. Quais recursos,
poderíamos considerar agrupar os meses para representar ou quais combinações de recursos, são os mais importantes?
melhor os dados. O mês 10 poderia então ser representado como Muitas vezes, um modelo produzirá um resultado sem qualquer
outono. O próprio outono poderia ser representado como o explicação. Surge então a questão de saber se é possível estudar o
valor numérico 3, enquanto a primavera seria 1, o verão 2 e o inverno modelo e, assim, descobrir como se chegou a esse resultado
4. Dessa forma, poderíamos derivar mais características de um específico.
item de dados ou reduzir o número de valores diferentes. Se os dados
forem extraídos de vários Tal como mencionado acima, os especialistas da Administração
fontes, devem ser tomadas medidas para garantir que elas estejam Fiscal Norueguesa construíram um modelo preditivo que os ajuda a
no mesmo formato. Nos dados dos EUA, por exemplo, o mês será selecionar as declarações fiscais a serem examinadas mais
indicado por 1 e o dia por 10 na fórmula de dados 1.10.2017. de perto. Eles afirmam o seguinte: “Quando construímos um
modelo desta forma, não sabemos necessariamente o que dá a
um contribuinte uma classificação elevada em termos de risco de
A normalização de recursos também pode ser necessária para erro. A classificação é o resultado de uma agregação complexa de
garantir que certos recursos não criem um desequilíbrio nos dados no modelo.”
dados de treinamento ou que alguns valores extremos não
afetem negativamente o restante. Simplificando, nós

8 https://www.coursera.org/learn/machine- http://www.ritchieng.com/machinelearning-learning-curve/
aprendizagem/palestra/Kont7/curvas de aprendizagem
Machine Translated by Google

13

Esta declaração da NTA sublinha a relevância da questão da caixa negra. Árvores de decisão
Neste caso são utilizadas apenas 30 funcionalidades diferentes,
mas é possível que um sistema utilize muito mais do que isso. Seria então Uma árvore de decisão é um dos modelos mais simples. Na sua forma mais
ainda mais difícil identificar o que era relevante para o resultado. Na forma básica, todos os dados são divididos de forma que possam ser
colocados na árvore. Começa-se no topo e em cada nível seleciona-se
um ramo com base no valor de um recurso específico. Continua-
Como entender e explicar o que está por trás disso se até à base da árvore, onde se encontra o resultado final – a decisão
– (ver figura abaixo).
Quando o aprendizado de máquina é empregado, o produto final é um
modelo. Quando se trata de modelos de aprendizado de máquina, a
facilidade com que seus resultados podem ser verificados varia
Este tipo de modelo proporciona um alto grau de
muito, mesmo que sejam usados os mesmos dados de treinamento. transparência, pelo menos quando a árvore é baseada em uma
quantidade gerenciável de dados. É possível subir na árvore para ver
A aprendizagem profunda e as redes neurais são frequentemente os os critérios nos quais o resultado se baseia. Com quantidades crescentes
primeiros elementos a serem mencionados quando são discutidas
de dados, contudo, chegar-se-á a um ponto em que será difícil para
questões de caixa negra, sem que a definam completamente. uma pessoa obter uma visão geral e compreensão.

Consideraremos agora dois exemplos que representam extremos


de facilidade e dificuldade na compreensão e verificação destes
modelos, nomeadamente as chamadas árvores de decisão e redes
neurais profundas.
Machine Translated by Google

14

Redes neurais

As redes neurais são usadas em uma metodologia que é Se houver mais de uma camada oculta, isso será
amplamente inspirada pela nossa compreensão do modo considerado aprendizado profundo. Na figura acima temos uma
como o cérebro humano funciona. Essas redes são construídas única rede neural na qual todos os dados de entrada se movem
por um componente basicamente muito simples (um da esquerda para a direita e emergem como resultado. Existem
perceptron), mas muitos desses componentes podem ser usados diversas variantes dessas redes neurais. Alguns formam loops e
para criar redes grandes e complexas. também enviam os dados da direita para a esquerda dentro da
rede antes que o resultado final seja produzido.
Um perceptron, ilustrado aqui abaixo, possui um número
variável de entradas e uma saída: Um dos desafios aqui é que os dados de entrada são vistos
isoladamente. Em muitas situações trabalhamos com
Cada «perna» do perceptron tem um valor de peso. Este valor informações que possuem um contexto. Por exemplo,
determina quão grande será a influência do recurso de entrada algumas palavras têm significados diferentes dependendo
no resultado final. Esses valores são ajustados quando a do contexto. Este contexto não precisa ser formado pela mesma
rede é treinada para fornecer os resultados desejados. Isso frase. Esta é parte da razão pela qual algumas redes neurais
geralmente é realizado trabalhando de trás para frente na rede têm uma forma de memória de curto prazo.
para ajustar os valores dos perceptrons relevantes para Isto permite-lhes produzir resultados diferentes com base nos
que o resultado final seja correto dados que foram processados anteriormente, o que obviamente
torna mais difícil determinar como um resultado foi obtido. Isto
também significa que pode ser muito difícil simplesmente
examinar os algoritmos para descobrir como funcionam e que
decisões tomam.

O número de camadas em uma rede neural pode variar. Um


exemplo disso é que em 2016 a Microsoft venceu um concurso
de reconhecimento de imagem utilizando uma rede composta
por 152 camadas.9 O tamanho da rede e o número de conexões
dependerão do número de valores de entrada e de como as
camadas estão interconectadas. Claramente, o tamanho da rede
neural mencionada está muito além do que pode ser
(retropropagação). Este é um processo automatizado que faz compreendido ou examinado sem a ajuda de ferramentas
parte do processo de aprendizagem. adequadas. Veremos essas ferramentas no capítulo final.

Uma rede neural consiste em três partes; uma camada de entrada,


uma ou mais camadas ocultas e uma camada de saída:

9 https://blogs.microsoft.com/ai/2015/12/10/microsoft-researchers-win-
imagenet-computer-vision-challenge/
Machine Translated by Google

15

A inteligência artificial atende ao GDPR

As disposições do RGPD regem os deveres do responsável pelo tratamento


de dados e os direitos do titular dos dados quando as informações Dados pessoais
pessoais são processadas. O RGPD aplica-se, portanto, quando a
inteligência artificial está em desenvolvimento com a ajuda de dados
Dados pessoais significam qualquer informação relativa a
pessoais, e também quando é utilizada para analisar ou tomar decisões
uma pessoa singular identificada ou identificável.
sobre indivíduos.
(Artigo 4.º (1) do RGPD)

Neste capítulo iremos rever os princípios de proteção de dados e os


Os dados podem estar diretamente ligados a uma pessoa,
artigos do RGPD que são especialmente relevantes para o
como nome, número de identificação ou dados de
desenvolvimento e utilização da inteligência artificial.
localização.

Os dados também podem estar indiretamente ligados a um


pessoa. Isto significa que a pessoa pode ser identificada
com base numa combinação de um ou mais elementos
Princípios fundamentais da proteção de
específicos da identidade física, fisiológica, genética, mental,
dados económica, cultural ou social de uma pessoa.

As regras que regem o tratamento de dados pessoais baseiam-se em alguns


princípios fundamentais. O Artigo 5 do GDPR lista os princípios que se
aplicam a todo o processamento de dados pessoais. A essência destes
princípios é que as informações pessoais serão utilizadas de uma forma
que proteja a privacidade do titular dos dados da melhor maneira
possível e que cada indivíduo tenha o direito de decidir como os Em processamento
seus dados pessoais serão utilizados. A utilização de dados pessoais no
desenvolvimento da inteligência artificial desafia vários destes princípios. Tratamento significa qualquer operação ou conjunto de
operações realizadas com dados pessoais, tais como
recolha, registo, organização, estruturação,
armazenamento, adaptação ou alteração, recuperação,
Em resumo, estes princípios exigem que os dados pessoais sejam: consulta, utilização, divulgação por transmissão,
difusão ou outra forma de disponibilização, alinhamento ou
combinação , restrição, apagamento ou destruição.
• processados de forma lícita, justa e transparente (princípio
da legalidade, equidade e transparência)

• coletados para fins específicos, expressamente declarados e (artigo 4.º (2) do RGPD)
finalidades justificadas e não tratadas de uma nova forma
incompatível com essas finalidades (princípio da
limitação da finalidade)
• adequado, relevante e limitado ao que é
necessários para cumprir as finalidades para as quais são Controlador de dados
tratados (princípio da minimização dos dados)

Controlador de dados significa a pessoa física ou


• correto e, se necessário, atualizado (princípio da exatidão)
jurídica, autoridade pública, agência ou outro órgão que,
isoladamente ou em conjunto com outros, determina as
• não armazenados de forma identificável por períodos mais
finalidades e os meios de tratamento de dados pessoais.
longos do que o necessário para os fins (princípio relativo
aos períodos de conservação de dados)
• processado de forma a garantir
(Artigo 4 (7) do RGPD)
proteção de dados pessoais (princípio da integridade e
confidencialidade)
Machine Translated by Google

16

Além disso, o responsável pelo tratamento dos dados é responsável e O princípio da equidade foi salvaguardado no tratamento de dados
deve ser capaz de provar o cumprimento dos princípios (princípio da pessoais. Estas investigações podem incluir uma revisão da documentação
responsabilização). que sustenta a seleção dos dados, um exame de como o algoritmo foi
desenvolvido e se foi devidamente testado antes de entrar em uso.
A seguir, analisaremos os desafios mais importantes em matéria de proteção
de dados associados ao desenvolvimento e utilização da inteligência
artificial. Analisamos estes desafios à luz dos princípios de proteção de
dados que são mais relevantes para a inteligência artificial –
nomeadamente os princípios de justiça, limitação de finalidade,
minimização de dados e transparência.
Exemplo
Uma alegação de discriminação baseada na IA foi
O viés algorítmico atende apresentada contra um sistema dos EUA para estabelecer

ao princípio da justiça condições de fiança e sentenças. O sistema é usado para


prever o risco de um condenado cometer um novo
crime.
É fácil pensar que a inteligência artificial será capaz de realizar análises
mais objetivas e, portanto, tomar melhores decisões do que os seres
A revista ProPublica estudou as decisões do sistema e
humanos. Afinal, a inteligência artificial não será afetada pela baixa de
concluiu que este discriminava arguidos negros. O número
açúcar no sangue, por um dia ruim ou pela vontade de ajudar um amigo.
de negros erroneamente sinalizados como apresentando
alto risco de reincidência foi duas vezes maior que o número
de brancos assim classificados.
E, no entanto, os algoritmos e modelos não são mais objetivos do que as
pessoas que os concebem e constroem e os dados pessoais que são
utilizados para formação. O resultado do modelo pode ser incorreto
A empresa que desenvolveu o software discordou da
ou discriminatório se os dados de treinamento apresentarem uma imagem
conclusão da ProPublica, mas não quis permitir que fossem
tendenciosa da realidade ou se não tiverem relevância para a área
examinados os critérios e cálculos utilizados no
em questão. Essa utilização de dados pessoais violaria o princípio da
desenvolvimento do algoritmo. É, portanto, impossível para a
equidade.
pessoa condenada, ou para o público em geral, obter
informações claras sobre por que e como tais decisões são
Este princípio exige que todo o processamento de informações
tomadas.
pessoais seja conduzido com respeito pelos interesses do titular dos
dados e que os dados sejam utilizados de acordo com o que
ele ou ela pode razoavelmente esperar. O princípio também exige (Fonte: https://www.propublica.org/article/machine-bias-
que o responsável pelo tratamento dos dados implemente medidas para risk-assessments-in-criminal-sentencing)
evitar o tratamento discriminatório arbitrário de pessoas
individuais. O prefácio do regulamento descreve a utilização de
procedimentos matemáticos ou estatísticos adequados como
medidas possíveis neste caso.

A inteligência artificial atende


Contudo, isto não seria suficiente por si só para garantir o cumprimento do ao princípio da limitação de propósito
princípio. O modelo também deve ser treinado usando dados relevantes e
corretos e deve aprender quais dados enfatizar. O modelo não deve enfatizar
Muitos dos modelos desenvolvidos com recurso à inteligência
informações relativas à origem racial ou étnica, opinião política,
artificial serão utilizados em ligação com boas causas, como o diagnóstico
religião ou crença, filiação sindical, estado genético, estado de saúde ou
do cancro. É-nos permitido utilizar dados pessoais sem restrições,
orientação sexual, se isso levar a um tratamento discriminatório
desde que seja por uma boa causa?
arbitrário.

O princípio da limitação da finalidade significa que o motivo do tratamento


dos dados pessoais deve ser claramente estabelecido e indicado no
Se houver suspeita ou alegação de que o uso de um modelo implicará momento da recolha dos dados. Isto é essencial para que o
resultados injustos ou discriminatórios, o Departamento de Dados
titular dos dados possa exercer controlo sobre a utilização das suas
Autoridade de Proteção pode investigar se o
informações. O propósito do
Machine Translated by Google

17

O processamento também precisa ser totalmente explicado ao


titular dos dados para que ele possa fazer uma escolha
informada sobre se deve ou não consentir.
Assuntos para
No entanto, o desenvolvimento e a aplicação da inteligência consideração
artificial requerem frequentemente muitos tipos diferentes de
dados pessoais – informações que, em alguns casos, foram
O prefácio do Regulamento (Considerando 50)
recolhidas para outros fins. Por exemplo, é possível que as
afirma que os seguintes fatores devem ser incluídos
atividades de uma pessoa no Facebook sejam incorporadas
ao determinar se o tratamento posterior de
a um algoritmo que determina se ela obterá uma hipoteca do
dados pessoais é compatível com a finalidade original:
banco. Essa reciclagem de informações pode ser útil e fornecer
análises mais precisas do que aquelas que eram tecnicamente
viáveis anteriormente, mas também pode ser uma violação do
• qualquer ligação entre a finalidade original e as
princípio da limitação da finalidade.
finalidades do tratamento posterior
pretendido
• o contexto em que os dados foram
Nos casos em que os dados pessoais anteriormente recuperados coletado
devam ser reutilizados, o responsável pelo tratamento deve
• a relação do titular dos dados com o
considerar se a nova finalidade é compatível com a original. Caso
controlador e como isso pode afetar as
contrário, será necessário um novo consentimento ou a base do
expectativas razoáveis do sujeito em relação
tratamento deverá ser alterada. No exemplo do Facebook discutido
ao processamento posterior
acima, o titular dos dados deve consentir que as informações
• a natureza dos dados pessoais
do Facebook sejam utilizadas pelo banco em conexão
• as consequências para o titular dos dados do
com pedidos de hipoteca, a fim de garantir que o
tratamento posterior pretendido
processamento seja conduzido em conformidade com o princípio
• se o processamento original
da limitação da finalidade.
operações e as novas estão sujeitas às devidas
salvaguardas
Nova tecnologia – nova ciência?
Esta lista não é exaustiva e todas as questões relevantes
O princípio da limitação da finalidade é altamente importante para
no caso individual devem ser incluídas na avaliação.
garantir que o titular dos dados exerça controlo sobre as suas
próprias informações pessoais. Existem, no entanto, exceções
ao princípio. O tratamento posterior de dados é, por exemplo,
considerado compatível com a finalidade original se ocorrer
no âmbito de investigação científica ou histórica, ou para fins
estatísticos e de arquivo de interesse público. Isto levanta a
questão de saber o que constitui investigação científica e até know-how.10 O prefácio do RGPD (Considerando 159) afirma
que ponto o desenvolvimento e aplicação da inteligência artificial que a investigação científica deve ser interpretada de forma
é investigação científica. ampla e incluir o desenvolvimento tecnológico e a
demonstração, a investigação básica, bem como a investigação
aplicada e financiada pelo setor privado. Estes elementos
Cada vez mais ambientes de pesquisa universitários e indicariam que – em alguns casos – o desenvolvimento da
hospitalares estão trabalhando no desenvolvimento de ferramentas que utilizam inteligência artificial pode ser considerado uma investigação
inteligência artificial. Os exemplos incluem modelos que científica.
identificam o risco de fraude fiscal ou de benefícios sociais, ou
software de reconhecimento de imagem que diagnostica cancro em tumores. Contudo, não se pode dizer que a aplicação da inteligência
Mas como definimos realmente a investigação científica? artificial para avaliar a solvabilidade de uma pessoa visa a aquisição
de novos conhecimentos. Neste caso, o uso da inteligência artificial
O Regulamento Geral de Proteção de Dados não define o que não pode ser definido como investigação científica. Mas é sempre
constitui investigação científica. Uma compreensão possível diferenciar entre o desenvolvimento e a aplicação
geral do conceito, contudo, é que ele deve estar relacionado com da IA?
esforços destinados a descobrir novos conhecimentos ou

10 Loja Norske Leksikon


Machine Translated by Google

18

Quando o modelo concluído é estático (offline), o não é possível prever o que o algoritmo aprenderá. A finalidade
desenvolvimento e o uso podem ser claramente diferenciados. também pode ser alterada à medida que a máquina aprende e se
Um modelo desenvolvido usando dados de treinamento é testado desenvolve. Isto desafia o princípio da minimização de
em dados semelhantes antes de ser usado. Uma vez colocado em dados, pois é difícil definir quais dados são
uso o modelo, os dados de treinamento são removidos do necessário.
algoritmo e o modelo processará apenas os dados pessoais aos
quais são aplicados, como informações sobre solicitantes de empréstimos. Contudo, a minimização de dados é mais do que um princípio
Como o algoritmo é estático, ele não aprenderá nada que limita a quantidade de detalhes incluídos no treinamento ou
além dos dados pessoais que está atualmente processando. na utilização de um modelo. O princípio também estipula
Conseqüentemente, nem desenvolverá inteligência depois de a proporcionalidade, que restringe a extensão da
colocada em uso. intervenção na privacidade do titular dos dados que a utilização
de dados pessoais pode envolver. Isto pode ser conseguido
Outros modelos desenvolvem-se e melhoram continuamente à dificultando a identificação dos indivíduos contidos nos dados
medida que são alimentados com mais dados pessoais. Estes básicos. O grau de identificação é limitado tanto pela
incluem modelos que fornecem suporte à decisão para os médicos. quantidade como pela natureza da informação utilizada, uma
O modelo aprende algo novo sobre cada paciente sobre o vez que alguns detalhes revelam mais sobre uma pessoa do que
qual recebe dados ou sobre cada artigo científico que lê. outros. A utilização de técnicas de pseudonimização ou de
Este novo conhecimento pode então ser usado no próximo paciente. encriptação protege a identidade do titular dos dados e ajuda a
limitar a extensão da intervenção.
Quando um modelo se desenvolve continuamente, é difícil
diferenciar entre desenvolvimento e utilização e, portanto, onde Este princípio também obriga os desenvolvedores a examinar
termina a investigação e começa a utilização. minuciosamente a área pretendida de aplicação do modelo para
Assim, é difícil chegar a uma conclusão sobre até que ponto o facilitar a seleção dos dados relevantes necessários para o
desenvolvimento e a utilização destes modelos constituem ou não propósito. Além disso, o criador deve considerar a forma de atingir
investigação científica. Os limites do que constitui investigação o objetivo de uma forma que seja menos invasiva para os titulares
científica terão de ser revistos assim que os novos regulamentos de dos dados. As avaliações realizadas precisam ser documentadas,
protecção de dados entrarem em vigor. para que possam ser apresentadas à Autoridade de Proteção de
Dados em caso de inspeção, ou em conexão com uma discussão
preliminar.
Ressaltamos que a utilização de dados pessoais para investigação
científica é regida por regras específicas do RGPD (artigo
89). A utilização nesses casos deve estar sujeita às salvaguardas
adequadas para garantir os direitos e liberdades do titular
dos dados. As salvaguardas devem garantir a existência de Avaliação de
medidas técnicas e organizacionais para proteger, em particular,
o princípio da minimização de dados. impacto na proteção de dados
Antes de as informações pessoais serem processadas,
A inteligência artificial encontra os impactos na proteção de dados devem ser avaliados

a minimização de dados se for provável que o processo represente um risco para


os direitos e liberdades das pessoas singulares.
Este é particularmente o caso quando se utilizam
Muitas vezes são necessárias enormes quantidades de dados pessoais para
novas tecnologias, e deve ser dada atenção à natureza
desenvolver inteligência artificial.
do tratamento, ao seu âmbito e finalidade, e ao
contexto em que é realizado.
Por outro lado, o princípio da minimização dos dados exige que
os dados utilizados sejam adequados, relevantes e limitados ao
necessário para atingir a finalidade para a qual os dados
Se o risco for elevado e o responsável pelo
são tratados. Isto significa que um responsável pelo tratamento não
tratamento não puder limitá-lo, terá o dever de
pode utilizar mais dados pessoais do que o necessário e
iniciar discussões preliminares com a Autoridade de
que a informação selecionada deve ser relevante para a
finalidade. Proteção de Dados.

Um desafio no desenvolvimento da IA é que pode ser (Artigos 35 e 36 do RGPD)


difícil definir a finalidade do processamento porque é
Machine Translated by Google

19

Embora seja difícil estabelecer antecipadamente as informações exatas 63) o direito de acesso deve evitar. A consideração dos direitos de
que serão necessárias e relevantes para o desenvolvimento de um terceiros, como os segredos comerciais de uma organização, não
algoritmo – e isso pode mudar durante o projeto – é essencial que o pode, no entanto, ser utilizada para negar ao titular dos dados o acesso
princípio da minimização de dados seja respeitado por meio a todos os dados que lhe digam respeito. A resposta é encontrar uma solução
de avaliação contínua de os requisitos reais. Isto não só protege os pragmática. Na maioria dos casos, fornecer ao titular dos dados as
direitos dos titulares dos dados, mas também minimiza o risco de informações informações de que necessita para proteger os seus interesses, sem
irrelevantes levarem o algoritmo a encontrar correlações que, em vez de ao mesmo tempo divulgar segredos comerciais, não será problemático.
serem significativas, são coincidentes e às quais não deve ser atribuído
qualquer peso.
Embora a IA seja complexa e difícil de compreender e explicar, o princípio
do tratamento transparente de dados pessoais aplica-se com força
total no desenvolvimento e utilização da inteligência artificial.
A pressão para utilizar dados pessoais está a intensificar-se à medida que
análises baseadas em IA são utilizadas para promover maior eficiência
e melhores serviços. A Autoridade de Proteção de Dados acredita A seguir discutiremos o dever de informar e os direitos dos titulares dos
que o princípio da minimização de dados deve desempenhar dados.
um papel importante no desenvolvimento da inteligência
artificial, para que os direitos dos titulares dos dados sejam protegidos e a informações gerais
confiança geral nos modelos seja mantida.
Quando são recolhidos dados pessoais, o responsável pelo tratamento
deve sempre fornecer algumas informações gerais, como

A caixa preta atende ao • a identidade do responsável pelo tratamento dos dados


• como o controlador de dados pode ser contatado

princípio do • a finalidade do processamento


• a base jurídica para o processamento
processamento transparente • as categorias de dados pessoais que são processados

A proteção de dados consiste, em grande parte, na salvaguarda dos direitos • e o direito dos titulares dos dados de inspecionar os dados
dos indivíduos de decidirem como as informações sobre si

próprios são utilizadas. Isto exige que os responsáveis pelo tratamento Devem também ser fornecidas informações sobre riscos, regras,
sejam abertos quanto à utilização de dados pessoais e que essa salvaguardas e direitos dos titulares dos dados em relação ao
utilização seja transparente. processamento, bem como sobre a forma como esses direitos podem ser
exercidos.
A transparência é alcançada fornecendo aos titulares dos dados
detalhes do processo. Os titulares dos dados devem ser informados Além disso, aplicar-se-á um dever alargado de informação quando forem
sobre a forma como a informação será utilizada, quer esta informação recolhidos dados pessoais para a tomada de decisões
seja recolhida pelos próprios titulares dos dados ou por terceiros (artigos automatizadas. O uso da inteligência artificial é uma forma de
13.º e 14.º do RGPD). Além disso, a informação deve estar facilmente processamento automatizado e, além disso, em alguns casos a decisão é
disponível, numa página inicial, por exemplo, e ser escrita numa linguagem tomada pelo modelo. É importante esclarecer o que é necessário para
clara e compreensível (artigo 12.º do RGPD). Esta informação permitirá que uma decisão seja qualificada de automatizada, antes de analisarmos
aos titulares dos dados exercer os seus direitos nos termos do RGPD. mais de perto o dever alargado de informação.

Decisões automatizadas individuais


Pode ser um desafio satisfazer o princípio da transparência no
desenvolvimento e utilização da inteligência artificial. Em primeiro Decisões automatizadas individuais são decisões relacionadas a indivíduos
lugar, porque a tecnologia avançada utilizada é difícil de baseadas no processamento de máquinas. Exemplo disso é a aplicação
compreender e explicar e, em segundo lugar, porque a caixa negra de multa com base em imagem registrada por radar automático.
torna praticamente impossível explicar como a informação é
correlacionada e ponderada num processo específico. As decisões automatizadas são definidas e regulamentadas no
Artigo 22 do GDPR.

É também um desafio que as informações sobre o modelo possam revelar Essencialmente, decisões individuais automatizadas não são
segredos comerciais e direitos de propriedade intelectual, que de acordo permitidas. No entanto, aplicam-se excepções se a decisão automatizada
com o prefácio do GDPR (Considerando for uma condição necessária para a celebração de um acordo.
Machine Translated by Google

20

contrato, seja permitido por lei ou seja baseado na explícita Nem a alternativa de que a decisão automatizada afecte de forma

consentimento do titular dos dados. O regulamento não define o semelhante e significativa uma pessoa também não é definida de forma mais
que constitui consentimento explícito em oposição ao consentimento de perto. Assumimos que a decisão deve ter o potencial de
ordinário, mas a frase indica que é necessário um gesto afetar as circunstâncias, o comportamento ou as escolhas da
expresso por parte do titular dos dados. pessoa que está sujeita à decisão automatizada. No entanto, é
difícil afirmar com precisão onde deve ser traçada a linha divisória,
Para cumprir os requisitos do Regulamento, a decisão deve basear-se uma vez que existem elementos subjetivos consideráveis
exclusivamente no tratamento automatizado e deve numa tal avaliação.
produzir efeitos jurídicos ou afetar significativamente uma
pessoa de forma semelhante. Quando são aplicadas decisões automatizadas, devem ser
implementadas medidas para proteger os direitos, liberdades e
O facto de uma decisão automatizada se basear exclusivamente interesses legítimos do titular dos dados. O titular dos dados deve
no tratamento automatizado significa que não pode haver qualquer poder exigir que um ser humano tome a decisão final e deve ter
forma de intervenção humana no processo de tomada de decisão. direito de recurso.
“Intervenção humana” significa que uma pessoa singular deve ter
realizado uma avaliação independente dos dados pessoais Decisões automatizadas que envolvam categorias especiais de
subjacentes e estar autorizada a reexaminar as recomendações dados pessoais ( dados pessoais sensíveis) são permitidas
que o modelo produziu. As regras que regem a tomada de apenas se o titular dos dados tiver consentido ou se forem legalmente
decisão automatizada não podem ser contornadas pela fabricação justificadas.
de intervenção humana.
É importante estar ciente de que o alinhamento de diferentes
tipos de dados pessoais pode revelar informações sensíveis
O que se entende por efeito jurídico não está definido no sobre os indivíduos. Operar com estes dados envolverá o
prefácio. Seria natural entender esta frase no sentido de que a decisão processamento de categorias especiais de dados pessoais.
automatizada deve ter impacto nos direitos ou deveres do titular
dos dados, tais como direitos legais, ou os direitos estabelecidos num
contrato. Veja os exemplos listados na caixa de fatos. Por exemplo, um estudo combinou “curtidas” no Facebook com
informações de uma pesquisa simples e previu a orientação sexual
dos usuários do sexo masculino com uma precisão de 88%. Além disso,
eles previram a etnia com 95 por cento

Artigo 22 do RGPD Exemplos

A nossa interpretação do artigo 22.º baseia-se na


versão mais recente das orientações do Grupo de Efeito jurídico:
Trabalho do Artigo 29.º sobre a tomada de decisões
automatizada. • Se você estiver proibido de entrar em um
país
Este rascunho é baseado em contribuições de 64 • Se preencher os requisitos para receber o
organizações e está previsto para publicação no início subsídio de desemprego ou o subsídio de
de fevereiro de 2018. segurança social
• Se o seu fornecimento de eletricidade for
O Grupo de Trabalho do Artigo 29.º é composto cortado porque você não pagou suas contas
por representantes das autoridades de proteção
de dados dos estados da UE. Como país do EEE, a Decisões que afetam de forma semelhante e
Noruega tem estatuto de observador. As declarações significativa uma pessoa:
do grupo de trabalho têm normalmente um
peso considerável. • Rejeição automática de pedido de crédito
na Internet
(Grupo de Trabalho de Proteção de Dados do Artigo 29: xx/2017 em
• Recrutamento eletrônico sem intervenção
Tomada de decisão individual automatizada e definição de perfis para
efeitos do Regulamento 2016/679) humana
Machine Translated by Google

21

precisão e se o usuário era cristão ou muçulmano com 82 por cento de definir os seus prémios de seguro automóvel com base nos padrões de
precisão.11 Um estudo desta natureza está sujeito às mesmas condução dos tomadores de seguros, deverá informar os seus clientes
obrigações legais de acordo com o GDPR como se dados pessoais sobre os possíveis impactos desta situação e que uma condução
sensíveis tivessem sido processados desde o início. descuidada pode levar a prémios mais elevados.

O titular dos dados deve receber as informações aqui descritas antes do


início do processamento automatizado. Permitirá ao titular dos dados
apresentar uma reclamação contra o tratamento ou consentir no

Categorias especiais de mesmo.

dados pessoais O direito a uma explicação de uma decisão automatizada?

As categorias especiais de dados pessoais incluem


O titular dos dados pode solicitar uma explicação do conteúdo da
informações sobre origem racial ou étnica, convicções
decisão depois de esta ter sido tomada, ou seja, uma explicação de como
políticas, crenças religiosas ou filosóficas ou filiação sindical,
o modelo chegou ao seu resultado?
bem como o tratamento de dados genéticos e biométricos
com o objetivo de identificar de forma única uma pessoa
singular, detalhes de saúde ou informações relativas a as
O prefácio afirma que as garantias necessárias dadas em casos de
relações sexuais ou a orientação sexual de uma pessoa.
tratamento automatizado incluirão “informações específicas… e o
direito de… obter uma explicação da decisão tomada após tal avaliação
[automatizada]” (Considerando 71). O prefácio afirma que o titular
dos dados tem direito a uma explicação de como o modelo chegou ao
(Artigo 4 do RGPD)
resultado, ou seja, como os dados foram ponderados e considerados
na instância específica.

Direito à informação em conexão com decisões individuais


automatizadas No entanto, o direito a uma explicação não consta do próprio RGPD. As
implicações das diferenças linguísticas entre o prefácio e a
Além de receberem a informação geral acima referida, os titulares dos redacção dos artigos não são claras,12 mas o prefácio em si não é
dados devem ser informados de que os seus dados pessoais estão a juridicamente vinculativo e não pode, por si só, conceder o direito a uma
ser recolhidos para utilização num processo automatizado de tomada de explicação.
decisão. Devem também ser fornecidas informações relevantes sobre
a lógica subjacente do modelo, bem como a importância e os
impactos previstos do processo automatizado. Independentemente do significado das diferenças linguísticas, o responsável
pelo tratamento dos dados deve fornecer todas as informações
necessárias para que o titular dos dados possa exercer os seus direitos.
As informações fornecidas sobre a lógica do modelo abrangerão, por Isto significa que a decisão deve ser explicada de forma que o
exemplo, aspectos como se as árvores de decisão devem ser titular dos dados seja capaz de compreender o resultado.
utilizadas e como os dados devem ser ponderados e correlacionados.
Porque a informação deve ser prontamente
compreendido pelo titular dos dados, nem sempre é necessário O direito a uma explicação não significa necessariamente que a caixa
fornecer uma explicação completa do algoritmo, ou mesmo incluí- negra deva ser aberta, mas a explicação deve permitir ao titular dos
lo. dados compreender por que razão foi tomada uma determinada
decisão ou o que é necessário
Os titulares dos dados também devem ser informados sobre
como as decisões automatizadas podem afetá-los. Uma companhia
de seguros que emprega tomada de decisão automatizada para

11 12
Michael Kosinski, David Stilwell e Thore Graepel. «Traços e atributos privados Ver, por exemplo, Andre Burt, «Existe um direito à explicação para a máquina
são previsíveis a partir de registros digitais do comportamento humano. Anais aprendendo no GDPR?»: https://iapp.org/news/a/is-there-a-right-to-
da Academia Nacional de Ciências dos Estados Unidos da explaination-for-machine-learning-in-the-gdpr/ cf. Sandra Wachter, Brent
América»: http://www.pnas.org/content/110/15/5802.full.pdf Mittelstadt, Luciano Floridi, Lei Internacional de Privacidade de Dados, a
publicar, «Por que não existe um direito à explicação da tomada de decisão
automatizada no Regulamento Geral de Proteção de
Dados», disponível em https://papers.ssrn.com/ sol3/papers.cfm?abstract_id=2903469
Machine Translated by Google

22

mudança para que uma decisão diferente seja tomada. 13 não concede o direito de receber uma explicação da decisão.
O titular dos dados deve ser informado sobre a forma como
pode opor-se à decisão, quer recorrendo, quer solicitando intervenção
humana. Embora não haja direito a uma explicação quando uma decisão não
é automatizada, o princípio da transparência exige que o
Alguém tem direito a uma explicação quando um ser responsável pelo tratamento de dados forneça uma
humano toma uma decisão com base na recomendação explicação semelhante às fornecidas para decisões
do modelo? automatizadas.

Às vezes ocorre um processo automatizado que não leva a uma


decisão automatizada. Em vez disso, um ser humano utiliza a
informação produzida pelo processo automatizado para tomar uma
decisão, por exemplo, empregando uma ferramenta de apoio à
decisão. As condições prévias para a tomada de uma decisão Outros relevantes
automatizada não terão, portanto, sido satisfeitas. A questão será,
portanto, se o titular dos dados tem direito à mesma explicação que regulamentos
no caso de uma decisão automatizada.
Além do GDPR, existem outros regulamentos que
exigem que uma decisão seja explicada.
Não existem artigos no RGPD, nem declarações no prefácio,
relativamente ao direito a uma explicação de uma decisão
específica quando as condições prévias para decisões automatizadas Por exemplo, o sector público está sujeito à Lei da
não são satisfeitas. Administração Pública que exige, entre outras coisas,
que as decisões individuais sejam fundamentadas.
O titular dos dados tem, no entanto, direito a que lhe sejam O interessado tem o direito de ser informado dos
fornecidas as informações necessárias para salvaguardar os seus direitos. regulamentos e das circunstâncias reais que
O princípio da transparência também estabelece requisitos fundamentam uma decisão, bem como das principais
de informação. considerações que foram decisivas. (Lei da
Administração Pública: Secções 24 e 25).
O direito de acesso à informação confere também ao titular
dos dados o direito de obter informações sobre os dados
pessoais utilizados para tomar a decisão. no entanto

13 Ver, por exemplo, Sandra Wachter, Brent Mittelstadt e Chris


Russel, «Explicações contrafactuais sem abrir a caixa negra:
decisões automatizadas e o RGPD».
Machine Translated by Google

23

Controlando os Algoritmos

No futuro descobriremos que cada vez mais decisões que nos


afectam serão tomadas pela IA. Podem ser decisões sobre se
podemos obter um empréstimo, qual será o nosso prémio de
Investigando o uso de IA
seguro automóvel ou que conteúdo o nosso jornal online nos
Uma organização que desenvolve ou utiliza IA está sujeita às
mostra. Ao mesmo tempo, está a tornar-se cada vez mais difícil
mesmas restrições legais que qualquer outra organização que
compreender e obter informações sobre os sistemas complexos
processa dados pessoais. No decurso de uma inspecção
que tomam decisões em nosso nome. Portanto, dependemos
normal, a DPA verificará se a organização tem uma base para o
de prestadores de serviços que processem os nossos
processamento, se possui controlos e rotinas internas
dados de forma adequada e em conformidade com os
satisfatórias, se foram realizadas avaliações de risco e se
regulamentos de proteção de dados.
estão em vigor medidas técnicas e organizacionais
para proteger os dados.
A Autoridade de Proteção de Dados (DPA) tem a tarefa de
supervisionar as organizações do setor público e privado e
garantir que cumpram os regulamentos de proteção de dados.
Existem algumas áreas que podem ser particularmente importantes
Mas como supervisionar um algoritmo escondido em uma caixa
para controlar nas organizações que utilizam IA, tais
preta?
como a conformidade com os princípios descritos anteriormente
neste relatório; que os dados não sejam reutilizados para novos fins
sem uma base de processamento adequada; que as organizações
A competência de não processem mais dados pessoais do que necessitam;

supervisão da DPA que existem medidas para garantir um tratamento justo; e que os
titulares dos dados sejam informados conforme exigido por lei.

O GDPR estabelece a autoridade investigativa atribuída à DPA em


Se uma organização desenvolve IA, pode ser relevante
conexão com a sua função de supervisão.
controlar a natureza e a quantidade dos dados de formação
Para controlar se os dados pessoais estão sendo processados
utilizados, bem como a forma como esses dados são
de acordo com os regulamentos, a DPA poderá conduzir uma
aplicados durante o processo de formação. Se uma organização
investigação. Uma inspeção deve esclarecer se o controlador de
utilizar um sistema baseado em IA, pode ser relevante verificar
dados possui rotinas e diretrizes destinadas a garantir a
se testa os resultados e realiza auditorias para garantir que os
conformidade com os regulamentos e se as rotinas e diretrizes são
dados pessoais não estão a ser utilizados de forma ilegal ou
seguidas.
discriminatória. Será também relevante investigar se o sistema
foi desenvolvido com base na privacidade desde a concepção.
No âmbito de uma investigação, os representantes da DPA
podem solicitar todas as informações de que necessitem
para o desempenho das suas tarefas. Isto pode consistir em
documentação relativa a medidas organizacionais e técnicas,
avaliações de risco, avaliações de impacto na proteção de Quão profunda pode uma investigação
dados, formação de funcionários e formas de acompanhamento
das abordagens feitas pelos titulares dos dados.
ir?
Na maioria das investigações será suficiente que a DPA obtenha
Os representantes podem também exigir o acesso às instalações,
documentação para determinar se a organização está em
aos equipamentos e meios de tratamento de dados, bem como
conformidade com os regulamentos. Uma organização deve ser
aos dados pessoais que estão a ser tratados.
capaz de explicar e documentar e, em alguns casos, demonstrar
O acesso às instalações, equipamentos e meios de
que processa dados pessoais de acordo com as regras. Isto
processamento de dados será concedido de acordo
significa que a organização deve saber como um sistema
com as regras processuais aplicáveis a nível nacional. Quando
processa dados pessoais e ser capaz de contabilizar isso.
consultada sobre o tema da nova Lei de Dados Pessoais na
Se uma organização não conseguir explicar como utiliza os
Noruega, a APD norueguesa propôs que se considerasse a
dados pessoais, a DPA está autorizada a impor uma multa e a
concessão à Autoridade de poderes para obter provas
proibição temporária ou definitiva das atividades de
semelhantes aos atualmente exercidos pela Autoridade da
processamento.
Concorrência norueguesa.
Machine Translated by Google

24

Se a DPA suspeitar que o relato fornecido por uma


organização está errado ou contém informações
Como inspecionar uma “caixa preta”?
erradas, pode solicitar à organização que verifique os detalhes
das suas rotinas e avaliações, por exemplo, pedindo à organização
Algoritmos “comuns” são relativamente simples de lidar. Eles são
que demonstre como o seu sistema processa dados pessoais. Isto
programados para realizar ações específicas. Se, por exemplo,
pode ser necessário quando, por exemplo, há suspeita de que
sua renda for x e suas dívidas y, você poderá obter um empréstimo
um algoritmo está a utilizar dados que a organização não tem
de z. Este é um exemplo bastante simplificado, mas mostra como
base para processar, ou se há suspeita de que o algoritmo
é possível ver quais são as entradas e como os dados são
está a correlacionar dados que levarão a um resultado discriminatório.
processados para se obter um determinado resultado.

A DPA realiza atualmente poucos controlos dos sistemas


No entanto, os modelos baseados em aprendizagem profunda
informáticos quando se encontra em inspeção. Em alguns casos
e redes neurais são complexos e têm baixa transparência,
em que há necessidade, a DPA verifica o que está
tornando difícil controlar o que realmente está acontecendo dentro
acontecendo dentro de um sistema, por exemplo, investigando por
do sistema. É necessário um conhecimento considerável de
quanto tempo uma gravação de câmera fica armazenada.
sistemas baseados em IA para saber o que procurar, bem como
Esperamos que a necessidade de controlar os sistemas de TI
quais perguntas fazer. Numa situação de inspeção, onde
aumente nos próximos anos, em linha com o maior uso de
identificamos a necessidade de aprofundar o sistema, será necessário
análises e tomadas de decisão automatizadas em todos os
um conhecimento tecnológico avançado.
setores. Além disso, a Lei de Dados Pessoais dá maior ênfase ao
obrigatório.
dever do responsável pelo tratamento de dados de realizar
operações e controlos internos responsáveis, e menos ênfase
Do ponto de vista da utilização de recursos, a solução pode ser
aos controlos preliminares conduzidos pela DPA.14
contratar especialistas externos nos casos em que é
necessário um controle “profundo” de um sistema baseado em
IA. É importante que a DPA tenha o conhecimento e os recursos
necessários para descobrir violações dos regulamentos,
de modo a evitar algoritmos que reforcem as diferenças sociais
ou conduzam à discriminação arbitrária, bem como à reutilização
ilegal de dados.

14 Consulte as diretrizes sobre as responsabilidades das empresas sob o https://www.datatilsynet.no/regelverk-og-skjema/veiledere/virksomhetens-


GDPR no site da DPA norueguesa (em norueguês), ansvar-etter-nytt-regelverk
Machine Translated by Google

25

Soluções e
recomendações

Um princípio de proteção de dados que sustenta todo o rotinas e no uso diário. As configurações padrão devem proteger
desenvolvimento e aplicações de IA é a responsabilização. Este tanto quanto possível a privacidade e os recursos de proteção de
princípio é central para o GDPR e atribui maior responsabilidade dados devem ser incorporados na fase de concepção.15 O
ao controlador de dados para garantir que todo o processamento seja princípio da minimização de dados é expressamente mencionado na
conduzido em conformidade com as regras. disposição relativa à privacidade desde a concepção.
Os processadores de dados também estão sujeitos ao princípio da
responsabilidade. Avaliação de impacto na proteção de dados

Neste capítulo apresentaremos exemplos de ferramentas e Qualquer pessoa que processe dados pessoais tem o dever de avaliar
soluções que podem ajudar o responsável pelo tratamento de os riscos envolvidos. Se uma empresa acreditar que um processo
dados a cumprir as regras. Mas primeiro discutiremos dois planeado poderá representar um elevado risco para os direitos e
dos requisitos do GDPR que são especialmente importantes em liberdades das pessoas singulares, tem o dever de realizar
conexão com o desenvolvimento e aplicação da IA; avaliação de uma avaliação de impacto na proteção de dados (AIPD). Isto está
impacto na proteção de dados (DPIA) e privacidade desde a descrito no Artigo 35 do RGPD.

concepção. Em seguida, analisamos ferramentas e métodos que


podem ajudar a proteger a privacidade em sistemas que utilizam Quando um risco é avaliado, deve-se considerar a natureza, o
IA. Finalmente, proporemos algumas recomendações para escopo, o contexto e a finalidade do processo.
desenvolvedores, fornecedores de sistemas, organizações que O uso de novas tecnologias também deve ser levado em
compram e utilizam IA, usuários finais e autoridades. consideração. Além disso, é necessário avaliar o impacto na
privacidade pessoal, considerando de forma sistemática e
extensiva todos os dados pessoais nos casos em que esses
dados são utilizados na tomada de decisões automatizada, ou
Avalie o impacto da proteção de quando categorias especiais de dados pessoais (dados pessoais

dados – e crie privacidade no seu sensíveis) são utilizadas numa base grande escala. A
monitorização sistemática e em grande escala das áreas públicas
sistema! também requer documentação que comprove que foi realizada
uma AIPD.
Os novos regulamentos de proteção de dados reforçarão os
direitos dos indivíduos. Ao mesmo tempo, os deveres das A avaliação de impacto deve incluir, no mínimo, o seguinte:
organizações serão reforçados. Dois novos requisitos
que são especialmente relevantes para organizações
que utilizam IA são os requisitos de privacidade por • uma descrição sistemática do processo, sua
design e DPIA. finalidade e qual o interesse justificado que protege
• uma avaliação sobre se o processo é
Privacidade desde o design necessária e proporcional, dada a sua finalidade
• uma avaliação do risco que o processamento
O responsável pelo tratamento dos dados deve incorporar a
envolve os direitos das pessoas, incluindo o direito à
proteção da privacidade nos sistemas e garantir que a
privacidade
proteção dos dados seja salvaguardada nas configurações
• as medidas selecionadas para gerenciar os riscos
padrão do sistema. Estes requisitos estão descritos no Artigo 25 identificados
do RGPD e aplicam-se ao desenvolvimento de software,
encomenda de novos sistemas, soluções e serviços, bem
A DPA estará envolvida nas discussões preliminares caso uma
como ao desenvolvimento destes.
análise de impacto revele que o processo planejado pode
representar um alto risco para os titulares dos dados, e
As regras exigem que a protecção de dados seja dada a
devida atenção em todas as fases do desenvolvimento do sistema, em

15 Leia as diretrizes da DPA norueguesa sobre desenvolvimento de


software com privacidade incorporada: https://www.datatilsynet.no/en/
regulations-and-tools/guidelines/data-protection-by-design-and-by-default/
Machine Translated by Google

26

que o risco não pode ser reduzido pelo responsável pelo tratamento dos modelo para uma unidade cliente, por exemplo um telefone celular. O
dados (artigo 36 do RGPD). modelo é então melhorado localmente no cliente, com base em dados
locais. As alterações no modelo são então enviadas de volta ao
servidor, onde são consolidadas com as informações de alterações
de modelos em outros clientes. Uma média das informações
Ferramentas e métodos para uma boa
alteradas é então usada para melhorar o modelo centralizado.
proteção de dados em IA O novo e aprimorado modelo centralizado agora pode ser
baixado por todos os clientes. Isto proporciona uma oportunidade
A inteligência artificial é uma tecnologia em rápido desenvolvimento. de melhorar um modelo existente, com base num grande número
O mesmo se aplica às ferramentas e métodos que podem ajudar a de utilizadores, sem ter de partilhar os dados dos utilizadores.
enfrentar os desafios de proteção de dados colocados pela utilização
da IA. Reunimos vários exemplos para ilustrar algumas das opções
disponíveis. Estes métodos não foram avaliados na prática, mas Cápsulas matriciais 18
avaliados de acordo com o seu possível potencial. Isto significa As cápsulas matriciais são uma nova variante de redes neurais e
que, tecnicamente, talvez sejam hoje inadequados, mas os conceitos requerem menos dados para aprendizagem do que o que é atualmente
são estimulantes e têm potencial para futuras pesquisas e a norma para aprendizagem profunda. Isso é muito vantajoso porque
utilização futura. são necessários muito menos dados para o aprendizado de máquina.

2. Métodos que protegem a privacidade sem reduzir a base de


Colocamos os métodos em três categorias: dados

A solução ideal seria poder usar tantos dados quantos desejasse para
• Métodos para reduzir a necessidade de dados de treinamento.
aprendizado de máquina, sem comprometer a privacidade. O
• Métodos que defendem a proteção de dados sem reduzir o
campo da criptologia oferece algumas possibilidades promissoras
conjunto de dados básico.
nesta área:
• Métodos concebidos para evitar o problema da caixa negra.

1. Métodos para reduzir a necessidade de dados de treinamento Privacidade diferencial 19


Comecemos, por exemplo, com uma base de dados que contém
Um dos desafios que apontamos neste relatório é que muitas vezes há pessoas singulares e características relacionadas com essas pessoas.
necessidade de grandes quantidades de dados durante o Quando a informação é recuperada da base de dados, a resposta
aprendizado de máquina. No entanto, selecionando os recursos conterá “ruído” gerado deliberadamente, permitindo a recuperação
corretos e ajustando-os adequadamente, a necessidade de dados de informações sobre pessoas na base de dados, mas não detalhes
pode ser reduzida. Aqui está uma seleção de métodos que podem precisos sobre indivíduos específicos. Um banco de dados não
ajudar a conseguir isso: deve ser capaz de fornecer um resultado marcadamente
diferente para uma consulta se uma pessoa individual for
Redes Adversariais Gerativas 16 removida do banco de dados ou não. As tendências ou
Redes Adversariais Generativas (GAN) são usadas para gerar características predominantes do conjunto de dados não serão
dados sintéticos. A partir de hoje, o GAN tem sido usado principalmente alteradas.
para a geração de imagens. Mas também tem potencial para se
tornar um método para gerar grandes volumes de dados de treinamento Criptografia homomórfica
sintéticos de alta qualidade em outras áreas. Isto irá satisfazer a Este é um método de criptografia que permite o
necessidade tanto de dados rotulados como de grandes volumes processamento de dados enquanto ainda estão criptografados. Isto
de dados, sem a necessidade de utilizar grandes quantidades de significa que a confidencialidade pode ser mantida sem limitar as
dados contendo informações pessoais reais. possibilidades de utilização do conjunto de dados. Atualmente,
a criptografia homomórfica tem limitações, o que significa que os
sistemas que a utilizam operarão com uma taxa de eficiência muito
Aprendizagem federada 17 menor. A tecnologia é promissora, no entanto.
Esta é uma forma de aprendizagem distribuída. O aprendizado federado
funciona baixando a versão mais recente de um sistema centralizado

16 https://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf 18 https://openreview.net/pdf?id=HJWLfGWRb

17 https://research.googleblog.com/2017/04/federated-learning- 19 https://www.cis.upenn.edu/~aaroth/Papers/privacybook.pdf,
colaborative.html https://arxiv.org/abs/1412.7584
Machine Translated by Google

27

A Microsoft, por exemplo, publicou um documento técnico sobre um foram, a fim de garantir a qualidade e melhorar seus produtos.
sistema que utiliza criptografia homomórfica em conexão com o
reconhecimento de imagens.20 Esforços ativos também
estão em andamento para padronizar soluções de criptografia IA explicável (XAI)24
homomórfica.21 XAI é a ideia de que todas as decisões automatizadas tomadas
deveria ser explicável. Com pessoas envolvidas num processo, muitas
Transferir aprendizagem22 vezes é desejável que seja dada uma explicação para o resultado.
Não é sempre necessário desenvolver modelos do zero. Outra Existem algumas possibilidades interessantes em duas áreas. Haverá
possibilidade é utilizar modelos existentes que resolvam tarefas também a necessidade de poder controlar sistemas que não
semelhantes. Ao basear o processamento nestes modelos tenham isso incorporado. Provavelmente também será atraente para
existentes, muitas vezes será possível alcançar o mesmo desenvolvedores que empregam aprendizagem por transferência.
resultado com menos dados e num tempo mais curto. Existem
bibliotecas contendo modelos pré-treinados que podem ser
usados. Há também um projeto em andamento nesta área, administrado pela
Defense Advanced Research Projects Agency (DARPA), onde o
INVESTIMENTO objetivo é obter mais conhecimento sobre como fornecer explicações
O Statistics Norway (SSB) e o Centro Norueguês de Dados de compreensíveis para decisões automatizadas. Eles
Pesquisa (NSD) desenvolveram um sistema chamado RAIRD23 patrocinaram a Oregon State University, concedendo uma quantia de
que permite a realização de pesquisas sobre dados sem ter acesso US$ 6,5 milhões ao longo de quatro anos para pesquisas neste tópico.
direto ao conjunto de dados completo. O objetivo é criar uma IA que possa explicar suas decisões de
uma forma que seja compreensível e promova confiança no uso
Resumindo, este sistema funciona por meio de uma interface que do sistema. Em qualquer caso, existem boas razões para acreditar que
permite aos pesquisadores acessar apenas os metadados do conjunto esta investigação irá impulsionar o campo.
de dados subjacente. O conjunto de dados pode, por exemplo, ser
um registo de diagnóstico de cancro contendo campos para
idade, sexo, data e local de nascimento. O pesquisador pode então LIMÃO25
enviar consultas com base nos metadados e obter um relatório contendo LIME é uma abordagem para XAI. É uma solução independente
apenas dados agregados. de modelo que produz explicações que as pessoas comuns podem
compreender. No caso do reconhecimento de imagens, por
Esta solução foi concebida para evitar a recuperação de dados relativos exemplo, será capaz de mostrar quais partes da imagem são
a grupos muito pequenos e pessoas individuais. Este tipo de relevantes para o que ele pensa que é a imagem. Isso torna mais fácil
sistema pode, portanto, ser usado quando são necessários dados para para qualquer pessoa compreender a base de uma decisão.
aprendizado de máquina. Em vez de receber um relatório como resultado
final, pode-se obter um modelo do sistema.

3. Métodos para evitar o problema da caixa preta

Uma das questões mencionadas é a falta de transparência em relação


à aprendizagem automática e à tomada de decisões automatizada.
Isto representa um desafio tanto para quem utiliza esse sistema
como para as pessoas cujos dados são processados por ele. Os
desenvolvedores de sistemas que baseiam seu trabalho no
aprendizado de máquina obteriam grande benefício em saber o que
acontece nos bastidores, pois

20
https://www.microsoft.com/en-us/research/publication/cryptonets-applying-neural-networks-to-encrypted- 23 http://raird.no/
data-with-high-throughput-and-accuracy/

24 https://www.darpa.mil/program/explainable-artificial-intelligence
21
http://homomorphicencryption.org/ 25 https://www.oreilly.com/learning/introduction-to-local-interpretable-model-agnostic-explanations-lime

22
http://www.cs.utexas.edu/~ml/publications/area/125/transfer_learning
Machine Translated by Google

• Selecione modelos que atendam às necessidades de privacidade do

Recomendações para comprador. Por exemplo, nem todos os tipos de modelos


conseguem explicar como chegaram a um resultado específico.
desenvolvimento e uso de IA que • Limitar a quantidade de dados pessoais nos dados de treinamento ao

respeitem a privacidade que é relevante e necessário para o


propósito.
• Garantir e documentar que o sistema que você está
A seguir propomos uma série de recomendações para
desenvolvimento atende aos requisitos de privacidade desde o
proteger dados pessoais durante o desenvolvimento e uso de IA.
projeto.
• Documentar como os requisitos de proteção de dados são atendidos.
A documentação é um dos requisitos da
Recomendações para desenvolvedores de IA
regulamentação e será solicitada pelos clientes ou usuários.

Estas recomendações destinam-se aos intervenientes que realizam


• Auxiliar os clientes mostrando quão diferentes
investigação e desenvolvimento em IA. Serão principalmente ambientes
os sistemas protegem os dados pessoais, por exemplo
de investigação em universidades e grandes organizações comerciais.
ajudando a cumprir o dever de fornecer informações, e mostrando
Estes constituem um grupo-alvo importante porque estão a desenvolver
ao cliente como testar ou auditar o sistema para garantir a
a tecnologia básica que constitui a base para futuras aplicações da IA.
conformidade com os regulamentos e requisitos internos.

• Realizar pesquisas sobre como os sistemas inteligentes


Recomendações para organizações que compram e usam sistemas
pode ser mais favorável à privacidade, por exemplo, como os
baseados em IA
sistemas de IA podem ser projetados para torná-lo
fácil para os usuários cumprirem os regulamentos.
Estas recomendações destinam-se a organizações que adquirem e
A investigação pode, por exemplo, ser realizada sobre
utilizam soluções de TI baseadas em tecnologias de IA. Podem
soluções que utilizem menos dados de formação,
ser organizações comerciais e públicas.
técnicas de anonimização e sobre soluções que expliquem como
os sistemas processam os dados e como chegam às suas
conclusões. Outras áreas de pesquisa interessantes
• Realize uma avaliação de risco e, se necessário, realize uma DPIA antes
incluem como conduzir auditorias de sistemas para garantir
de adquirir um sistema, antes de começar a usá-lo, bem como
que o sistema não seja tendencioso, especialmente auditorias
quando estiver em uso. • Exija que o sistema
realizadas por terceiros.
encomendado satisfaça os requisitos de privacidade desde a
• Adotar uma abordagem multidisciplinar. IA é mais do que apenas
concepção.
tecnologia. É importante formar equipas multidisciplinares
• Realizar testes regulares do sistema para garantir que ele cumpre os
que possam considerar as consequências para a
requisitos regulamentares, por exemplo, para evitar tratamento
sociedade dos sistemas desenvolvidos. A investigação
discriminatório latente.
também pode lançar luz sobre a forma como a utilização da IA
pode ter um valor considerável para a sociedade, bem como
• Garantir que o sistema protege os direitos dos seus usuários; por
sobre a problemática
exemplo, o direito de exigir
áreas.
em processamento.

• Certifique-se de que dispõe de bons sistemas para proteger os direitos


Recomendações para fornecedores de sistemas
dos titulares dos dados, tais como o direito à informação, ao
acesso e à eliminação. Se o consentimento for a base legal do
Estas recomendações destinam-se a organizações que utilizam
processamento, o sistema também deve incluir funcionalidades que
tecnologias básicas desenvolvidas por terceiros –
permitam dar e retirar o consentimento.
organizações que utilizam IA em seus próprios projetos ou em
soluções fornecidas a terceiros. Podem ser controladores de
• Considere estabelecer normas da indústria, éticas
dados ou apenas fornecedores de um serviço ou produto.
Nossas recomendações também são relevantes para ambientes de diretrizes ou um painel de proteção de dados composto por
especialistas externos nas áreas de tecnologia, sociedade
pesquisa que utilizam tecnologias desenvolvidas por terceiros.
e proteção de dados. Estes podem fornecer aconselhamento
sobre os desafios – e oportunidades – legais,
• Familiarize-se com o GDPR – os deveres que você
éticos, sociais e tecnológicos –
possuem, e os direitos e deveres dos usuários do sistema.
vinculado ao uso de IA.
Machine Translated by Google

29

Recomendações para usuários finais motivos imperiosos e justificáveis para o tratamento dos
dados, e que esses motivos pesam mais do que os
Estas recomendações destinam-se aos utilizadores finais. Um utilizador
seus interesses, direitos e liberdades.
final é o titular dos dados que utiliza um serviço ou cujos dados pessoais • Direito de exigir processamento limitado. Se você considerar
são tratados através de IA. que alguns dados estão incorretos ou estão sendo
processados ilegalmente, ou se você exerceu seu direito
• Direito à informação. Você tem direito a de protestar contra o processamento, a organização pode ser
informações compreensíveis e prontamente disponíveis sobre obrigada a interromper o uso dos dados, mas continuar a
o processamento dos seus dados pessoais. Este direito se armazená-los até que o desacordo seja resolvido. foi resolvido.
aplica tanto quando as organizações recuperam
informações diretamente de você, quanto quando elas • Portabilidade de dados. Se, seja contratualmente ou
são recuperadas de outras fontes. Você deve saber para
tendo dado o seu consentimento, você teve seus dados
que a informação está sendo usada (a finalidade) e a pessoais processados, você pode solicitar que esses
base legal na qual a organização está processando a detalhes lhe sejam entregues pela organização em
informação. • Consentimento. Em muitas situações, um formato estruturado, de aplicação geral e legível por
o responsável pelo tratamento deve obter o seu consentimento máquina.
antes do início do processamento.
O responsável pelo tratamento de dados é Recomendações para autoridades
responsável por documentar que foi dado o consentimento
adequado, o que significa que você deu uma declaração Estas recomendações destinam-se a legisladores e decisores
voluntária, específica, informada e inequívoca de que aprova políticos, uma vez que estabelecem os termos e condições para o
o processamento dos seus dados pessoais. Você desenvolvimento e utilização da IA.
também tem o direito de retirar qualquer consentimento
que tenha dado anteriormente. • Garantir que o setor público dê um bom exemplo na utilização da
• Direito de acesso à informação. Você tem o direito de entrar IA. Isto requer uma consciência aguda das consequências
em contato com organizações e perguntar se elas estão éticas e de privacidade dos sistemas que utilizam, bem
processando detalhes sobre você e, em caso afirmativo, o como conhecimentos especializados como compradores
que foi registrado. Em regra, tem direito a uma cópia para garantir que os sistemas adquiridos têm privacidade
dos dados registados. Existem, no entanto, algumas desde a conceção e que cumprem os requisitos
excepções ao direito de acesso à informação, por legislativos.
exemplo no sector judicial. • Alocar fundos para pesquisas que garantam que a
tecnologia processe os dados pessoais em
• Direito de retificação e exclusão de informações. conformidade com os regulamentos. A proteção de
Você tem o direito de solicitar que detalhes dados pessoais não é apenas um requisito legal, mas
incorretos ou desnecessários sobre você sejam retificados também pode ser uma vantagem competitiva
ou excluídos. para a indústria norueguesa.
• Direito de se opor ao processamento de dados sobre • Garantir que as autoridades responsáveis pela aplicação da lei
você. Você pode ter o direito de protestar contra o possuem os conhecimentos especializados relevantes e
processamento de detalhes que lhe digam respeito. providenciar a partilha de experiências e
Se você protestar contra o marketing direto, ele deverá ser conhecimentos
interrompido sem que você precise fornecer outros através das fronteiras sectoriais. • Garantir que a lei acompanhe
motivos. Noutras situações, poderá ter de justificar o seu desenvolvimentos tecnológicos. Isto aplica-se a toda a
direito de oposição explicando as circunstâncias legislação que tenha relevância para a utilização de
que afetam a sua situação. A organização deve então dados pessoais.
cessar o processamento, a menos que possa provar
que
Machine Translated by Google

A proteção de dados norueguesa


Autoridade

Endereço de visita:
Tollbugata 3, 0152 Oslo, Noruega

Endereço postal:
PO Box 8177 Dep.,
0034 Oslo, Noruega

postkasse@datatilsynet.no
Telefone: +47 22 39 69 00

datatilsynet.no
personvernbloggen.no
twitter.com/datatilsynet

Você também pode gostar