Escolar Documentos
Profissional Documentos
Cultura Documentos
com
10
10 Equívocos SOBRE
APRENDIZAGEM DE MÁQUINA
“Inteligência artificial”, no entanto, é um termo abrangente para tecnologias que visam imitar as
capacidades de raciocínio humano, que podem ter aplicações e limitações muito diferentes.
Frequentemente, os fornecedores de tecnologia promovem os seus sistemas alegando que utilizam
IA, sem especificar que tipo de IA.
O aprendizado de máquina (ML) é um ramo específico da IA, aplicado à resolução de problemas específicos e
limitados – como tarefas de classificação ou previsão. Ao contrário de alguns outros tipos de IA que tentam
destilar a experiência humana (por exemplo, sistemas especialistas2), o comportamento dos sistemas de
aprendizado de máquina não é definido por um conjunto predeterminado de instruções.
Os modelos de ML são treinados usando conjuntos de dados. Durante o seu treinamento, os sistemas de ML se adaptam de
forma autônoma aos padrões encontrados entre as variáveis de um determinado conjunto de dados, criando correlações. Uma
vez treinados, esses sistemas usarão os padrões aprendidos para produzir seus resultados.
Ao contrário de outros tipos de sistemas de IA3, o desempenho4dos modelos de ML depende muito da
precisão e representatividade dos dados de treinamento.
O objetivo deste documento é dissipar os equívocos comuns em torno dos sistemas de BC, sublinhando ao
mesmo tempo a importância de implementar estas tecnologias de acordo com os valores da UE, os
princípios de proteção de dados e o pleno respeito pelos indivíduos.
conhecimento, que define as regras para a tomada de decisões, e com um mecanismo de inferência, que aplica as regras.
3 No aprendizado de máquina, o algoritmo aprende regras à medida que estabelece correlações entre entradas e saídas. No raciocínio simbólico, as
regras são criadas através da intervenção humana. Primeiro, os humanos devem aprender as regras pelas quais dois fenómenos se relacionam e
depois codificar essas relações no sistema de raciocínio simbólico. Portanto, a precisão do sistema simbólico de IA depende da qualidade das
relações definidas pelo homem, e não da qualidade do(s) conjunto(s) de dados de entrada.
4 Simplificando, o desempenho de um sistema de ML é o quão “boas” suas previsões realmente são. Embora seja um conceito simples, a
complexidade tem a ver com identificar o que é considerado “bom”. Existem várias “métricas de desempenho” que avaliam os modelos
de ML de maneira diferente: precisão é a fração de previsões que um modelo acertou; A precisão é a razão entre o número de
resultados corretos e o número de todos os resultados retornados; Recall é a razão entre o número de resultados corretos e o número
de resultados que deveriam ter sido retornados. Dependendo do contexto da aplicação, algumas métricas de desempenho podem ser mais
relevantes que outras.
Os sistemas de ML são muito eficientes em encontrar uma maior procura de partilha de dados pessoais e não
correlações, mas carecem de capacidade analítica para ir além pessoais, porque os desenvolvedores de ML não têm dados
disso e estabelecer uma relação causal5. suficientes para melhorar o desempenho dos seus sistemas.
pontuações de testes de QI e a altura relacionada do indivíduo (mas Normalmente, o treinamento de sistemas de ML requer grandes
não a idade), um modelo de ML poderia prever erroneamente que quantidades de dados, dependendo da complexidade da tarefa a ser
pessoas altas são mais inteligentes do que pessoas mais baixas, resolvida. No entanto, adicionar mais dados de treinamento a um
estabelecendo uma correlação entre o aumento da altura e o processo de desenvolvimento de modelo de aprendizado de máquina
No entanto, tal fenómeno pode estar enraizado no facto de as Na verdade, poderia criar novos problemas ou agravar os já
crianças geralmente terem pontuações mais baixas do que os adultos existentes. Por exemplo, adicionar mais imagens masculinas de
adequado para explicar o que está a causar a doença inferida. proporcional à sua finalidade. Do ponto de vista da
proteção de dados, não é uma prática proporcional
aumentar substancialmente a quantidade de dados
Esses exemplos ilustram que a supervisão humana é
pessoais no conjunto de dados de formação para obter
necessária para garantir que os sistemas de ML identifiquem
apenas uma ligeira melhoria no desempenho dos
as variáveis relevantes (as causas) para uma previsão ou
sistemas.
classificação.
5https://www.wired.com/story/ai-pioneer-algorithms- 6 Encontre uma análise de preconceito de gênero e étnico em: Gender Shades
No entanto, a ciência estatística sugere que, apesar da restrições de desempenho. Esta é uma arquitetura conhecida
presença de erros individuais nos dados de entrada, é como aprendizagem centralizada. No entanto, embora a
possível calcular com precisão o resultado médio ao aprendizagem centralizada possa mitigar as restrições de
processar grandes quantidades de dados.7. Os modelos de desempenho, ainda existem certas considerações que devem ser
ML são tolerantes a imprecisões ocasionais em registros tidas em conta. Uma é que os dados pessoais exigem que tanto o
individuais8porque dependem da qualidade geral de grandes controlador de dados como o destinatário dos dados cumpram
Alguns modelos de ML são treinados usando dados sintéticos, ou seja, maiores de dados pessoais aumentam o interesse de terceiros
conjuntos de dados de treinamento gerados artificialmente, que imitam em obter acesso não autorizado e agravam o impacto de uma
dados reais. Mesmo que nenhum dado real corresponda precisamente aos violação de dados pessoais.
A privacidade diferencial é uma técnica que introduz ruído nos máquina centralizado. No aprendizado distribuído no local, cada
conjuntos de dados de treinamento para preservar a privacidade dos servidor controlador de dados baixa um modelo de ML genérico ou
titulares dos dados. Apesar das imprecisões produzidas pela pré-treinado de um servidor remoto. Em seguida, cada servidor local
privacidade diferencial, os modelos de ML são capazes de alcançar usa seu próprio conjunto de dados para treinar e melhorar o
Fato: uma vez implantado, o modelo de ML é Fato: Um modelo de ML bem projetado pode
o desempenho pode deteriorar-se e não produzir decisões compreensíveis para todas as
melhorará a menos que receba formação partes interessadas relevantes.
adicional.
Existem várias abordagens para fornecer explicações sobre
Durante o treinamento de um modelo de ML, o algoritmo é decisões baseadas em IA, e a maioria delas também pode
testado constantemente. Quando o modelo estiver maduro (ou ser aplicada a decisões de modelos de ML.
seja, puder resolver corretamente os problemas para os quais foi
projetado), ele será considerado adequado para ser implantado. Algumas abordagens esclarecem o processo de criação do
modelo, especificando quais parâmetros e hiperparâmetros14
Um modelo implantado e não mais treinado não “aprenderá” foram considerados e quanta influência cada um teve no
correlações adicionais com os dados recebidos, modelo resultante. Outros explicam como o modelo
independentemente da quantidade de dados fornecidos. Isso interpreta as características dos dados recebidos1,5
significa que, a menos que os modelos de ML continuem a ser permitindo que os indivíduos entendam e antecipem como o
treinados, não se pode esperar que eles evoluam. Isto constitui sistema se comportará em uma situação particular. Algumas
um risco para a precisão do sistema, uma vez que a sua outras abordagens não explicam o comportamento global
obsolescência em relação à realidade pode pôr em perigo a sua do modelo, mas concentram-se na forma como um
capacidade de fazer julgamentos ajustados e justos. determinado input influenciou a obtenção de um
determinado resultado.16.
A capacidade preditiva dos modelos de ML pode deteriorar-se ao
longo do tempo de duas maneiras diferentes: devido ao desvio Podem ser necessários diferentes graus de detalhe
de dados (mudanças substanciais nos dados de entrada) ou explicativo, dependendo dos indivíduos e do
devido ao desvio de conceito (quando a nossa interpretação dos contexto. A abordagem adequada será aquela que
dados muda enquanto a distribuição geral dos dados não consiga descrever claramente ao público o caminho
muda). ).13 percorrido até a tomada de decisão desde o
treinamento e criação do modelo.
Uma vez que o contexto do processamento onde o sistema
ML funciona pode evoluir, é necessário monitorizar o sistema
para detectar qualquer deterioração do modelo e agir sobre
esta deterioração (por exemplo, treinando ainda mais o
modelo com novos dados, tendo em conta os requisitos de
protecção de dados ).
Portanto, os sistemas de ML não fazem suposições sobre o Os sistemas de ML são excelentes para encontrar correlações em
futuro, mas sim previsões, que se baseiam em eventos dados e são capazes de identificar padrões em dados pessoais
passados e são fornecidas aos sistemas durante o que não foram explicitamente procurados e são desconhecidos
treinamento. até mesmo pelos indivíduos em causa (por exemplo, uma
predisposição para uma doença). Este potencial suscita diversas
Alguns modelos de aprendizagem de ML podem evoluir para se preocupações do ponto de vista da proteção de dados.
adaptarem a novos dados, como modelos de criação de perfis em
adaptar a um cenário completamente novo ou a eventos em rápida Por um lado, os titulares dos dados podem ser afetados por
mudança. Para adaptar as suas previsões a tais mudanças, a maioria decisões baseadas em informações que não conhecem e que
dos modelos necessitará de grandes quantidades de novos dados. não têm como antecipar e/ou reagir.
Por outro lado, os titulares dos dados podem receber
informações sobre eles desencadeadas pelo BC em locais
ou situações onde possa haver um impacto acrescido nas
suas vidas devido ao contexto específico. Por exemplo,
ao receber pelo correio cupons de desconto de uma loja
comercial, com base em seus hábitos de compra, o que
poderia revelar um hábito obrigatório para jogos de
loteria.