Você está na página 1de 37

FACILITANDO A DIFUSÃO DE CONHECIMENTO E INOVAÇÃO NO DESENVOLVIMENTO DE SOFTWARE

Machine Learning
no Mundo Real
Estudos de caso, técnicas e riscos
Agosto 2019

ARTIGO pág 6 ARTIGO pág 13 ARTIGO pág 24

Mais bytes De volta para o Futuro: Analisando e prevenindo o


no seu desmistificando o viés preconceito inconsciente
bolso cognitivo em Machine Learning
NESTA EDIÇÃO
Mais bytes no seu bolso
6 A Lovethesales.com teve que classificar dados de um milhão de produtos de mais de
700 fontes diferentes em um vasto domínio. Eles decidiram criar uma hierarquia de
classificadores utilizando machine learning, especificamente Support Vector Machines.
Eles aprenderam que otimizando a maneira em que svms foram conectadas levando a
várias melhorias no reuso de dados de treinamento rotulados.

De volta para o Futuro: Desmistificando o Viés Cognitivo


13 A IA nas empresas tem nuances mais predominantes nos dados de entrada quando
comparado com a IA aplicada a um consumidor ou na academia. O calcanhar de Aquiles
neste domínio é o viés cognitivo. Em termos leigos, é como o Marty McFly (De volta para
o Futuro) viajando para o futuro, colocando as mãos no almanaque esportivo e usando-o
para apostar nos jogos do presente. Mayukh Bhaowal, do Salesforce Einstein, explica como
neutralizar este efeito.

Entendendo o comportamento de sistemas e softwares


18 com Machine Learning e dados de séries temporais
No QCon.ai 2018, David Andrzejewski apresentou “Entendendo o Comportamento
Sistêmico de Softwares com Machine Learning e dados de séries temporais”. David é
gerente de engenharia na Sumo Logic, uma plataforma em nuvem para análise de dados
de máquinas. Os desenvolvedores que já estiverem rodando um software (como um app
ou cluster em nuvem) podem usar a Sumo Logic como backend de seus logs de sistemas.
A Sumo Logic proporciona inteligência contínua para dados de máquina.

Analisando e prevenindo o preconceito inconsciente em


24 Machine Learning
Este artigo é baseado na palestra de Rachel Thomas, “Analisando e Prevenindo o
preconceito inconsciente na Aprendizagem de Máquina” apresentado na QCon.ai 2018.
Thomas trabalha na fast, um laboratório de pesquisa sem fins lucrativos que possui
parceria com o Instituto de Dados da Universidade de São Francisco em fornecer
treinamento em aprendizado profundo para a comunidade de desenvolvedores.

Podemos confiar em algoritmos para tomada


30 de decisão automática?
A adoção de tomada de decisão automática vem crescendo a cada dia. Os algoritmos
podem produzir resultados socialmente não compreendidos. Há como afirmar que são
seguros se não podemos compreendê-los? Os receios do público sobre a incapacidade
de prever as consequências adversas impediram tecnologias como a energia nuclear e
as culturas geneticamente modificadas.

NOS ACOMPANHE FALE CONOSCO


FEEDBACK feedback-br@infoq.com
VENDAS sales-br@infoq.com
EDITORIAL editor-br@infoq.com

/InfoQBrasil @InfoQBrasil /company/qcon-


/qconsp/ @QConSP são-paulo/
CARTA DO EDITOR

Srini Penchikala
Tecnologias de Machine Learning (ML) e Deep • Explorando como a cidade de Nova York
Learning, como o Apache Spark, o Flink, o CNTK estabeleceu uma força-tarefa para obter
da Microsoft, o TensorFlow e o Caffe aproximaram explicação e mitigação de pessoas afetadas pelo
a análise de dados para a comunidade de uso de algoritmos de machine learning pelas
desenvolvimento. Seja classificando dois agências da cidade;
milhões de produtos a serem vendidos recebidos
Todas as publicações incluídas nesta emag são
de mais de 700 vendedores multinacionais
escritas por pessoas com experiência prática e
na organização “Love the Sales”, construindo
especialistas nas matérias apresentadas, todos
consciência de algum viés oculto com clientes
no campo de machine learning. Esperamos que
no site Einstein da Salesforce ou entendendo
você concorde conosco que estes artigos são
o comportamento de um sistema de software
recursos valorosos de referência e que as técnicas
com Machine Learning e dados ordenados
podem ser utilizadas em seus próprios projetos e
cronologicamente na SumoLogic. As soluções
iniciativas em suas organizações.
que fazem uso de Machine Learning estão
guiando a margem competitiva em empresas e
Como disse Einstein, “educação não é aprender
indústrias.
os fatos, mas treinar a mente a pensar”. Nós no
InfoQ esperamos que essa emag ajude você a
Essa eMag foca no cenário atual de tecnologias de
se desenvolver com casos do mundo real de
Machine Learning e apresenta diversos estudos
como Machine Learning está sendo usada por
de caso do mundo real associados ao tema. Ela
diferentes companhias e também agir como
apresenta artigos e entrevistas cobrindo diversos
catalisador na busca por mais e mais inovações
tópicos, incluindo:
e usos de aplicação das técnicas e algoritmos de
Machine Learning.
• Usando Algoritmos de Support Vector
Machines (SVMs) como uma ferramenta efetiva
Obrigado por conferir mais essa eMag do InfoQ.
para classificação de documentos;
• Analisando e prevenindo vieses inconscientes
em machine learning;
COLABORADORES
Srini Penchikala
Srini Penchikala trabalha atualmente como um arquiteto de software
sênior em Austin, Texas. Penchikala tem mais de 22 anos de experiência
em arquitetura de software, design e desenvolvimento. Ele também é o
líder editorial para a comunidade de AI, ML e Engenharia de dados do
InfoQ, que atualmente publicou seu minibook Processamento de Big Data
com Apache Spark. Ele publicou artigos sobre arquitetura de software,
segurança, gerenciamento de riscos, NoSQL e big data em sites como o
InfoQ, TheServerSide, O’Reilly Network (OnJava), DevX’s Java Zone, Java.net,
e JavaWorld.

David Bishop Mayukh Bhaowal 


Depois de estudar ciência da computação na Nova Zelândia, É diretor de gestão de produtos na Salesforce Einstein,
David Bishop se mudou para Londres e liderou o time técnico trabalhando em machine learning automatizado e ciência
do reed.co.uk, um dos 100 maiores sites de emprego do de dados. Mayukh é mestre em ciência da computação pela
Reino Unido. Ele fundou seu próprio negócio de tecnologia, Universidade de Stanford. Antes da Salesforce, ele trabalhou
o Love the Sales, que procura agregar todas as vendas de em startups na área de machine learning e analytics. Ele
milhares de sites de comércio. atuou como chefe de produto na Scaled Interference, uma
startup de plataforma de machine learning apoiada pela
Khosla Venture e gerenciou produtos na Narvar, uma startup
de e-commerce apoiada pela Accel. Ele também foi um
gerente de produtos principal no Yahoo e Oracle.

Michael Stiefe
Principal na Reliable Software, Inc, é um consultor de
arquitetura de software e desenvolvimento, e o alinhamento
de tecnologia da informação com metas de negócios. Ele deu
aulas no Departamento de Aeronáutica e Astronáutica do Roland Meertens
Instituto de Tecnologia de Massachusetts, onde sua pesquisa É um engenheiro de visão computacional trabalhando com
e foco de docência foi em entender como pessoas constroem inteligência artificial de percepção em carros autônomos
modelos mentais para resolver problemas. Como professor Autonomous Intelligent Driving, uma subsidiária da Audi.
adjunto, ele ensinou graduandos nos cursos de engenharia Ele trabalhou em coisas interessantes como tradução neural
de software na Norteastern University e na Framingham State de máquinas, fuga de obstaculos em drones pequenos e
University. Ele explora seu interesse em tecnologia e arte no um robô social para idosos. Além de escrever notícias sobre
blog Art and Software. machine learning no InfoQ, ele algumas vezes publica em seu
blog Ping of Intelligence e no Twitter.
pontos principais
• As SVM’s (máquina de
MAIS BYTES NO SEU BOLSO
vetores de suporte) são
uma ferramenta eficaz para
classificar documentos.
por David Bishop
• Ao reduzir o tamanho de
grandes conjuntos de dados/ Em muitos casos, a aquisição de dados de
vetores, o treinamento de treinamento bem rotulados é uma grande
seus modelos é facilitado.
dificuldade para desenvolver sistemas
• Ao reutilizar dados rotulados
por meio de relacionamentos de predição acurados com aprendizado
vinculados, o custo do supervisionado.
treinamento de cargas de
dados é reduzido e aumenta
a precisão das previsões.
Na Love the Sales, agregamos produtos
de venda de mais de 700 fornecedores
• Escolher as estruturas de
dados corretas é muito internacionais, resultando em mais de 2
importante para alcançar os
melhores resultados.
milhões de produtos por dia que precisam
de classificação. Com uma equipe tradicional
• Diminuir a hierarquia de
dados pode ser útil para de merchandising, seriam necessários 4 anos
reduzir o número de SVMs.
para realizar esta tarefa manualmente.

5
Nosso desafio foi aplicar a classifi-
cação ao metadata textual destes
A SMV tentará aprender o melhor
hiperplano: Essencialmente,
2 milhões de produtos (a maioria
roupas e utensílios domésticos) dado um conjunto
em mais de 1000 categorias
diferentes - representados em
uma hierarquia, como esta:
suficientemente grande
          Mens Clothing
de dados de treinamento
                           Mens Jeans
                           Mens Jumpers rotulados - uma SVM
          Womens Clothing
                           Womens Jeans irá tentar encontrar um
                           Womens Jumpers
                           ... plano melhor entre os
Embora existam inúmeros algo-

Máquinas de Vetores de
ritmos de machine learning para
classificação (Redes Neurais, Ran-
exemplos - ou seja,
Suporte
Para a classificação, optamos pe-
dom Forest, Naive Bayesian), as
SVMs são ótimas para dados com
desenhar uma primeira
las SVMs. As SVMs são uma classe
de algoritmo de aprendizado de
muitas características - no nosso
caso, para classificação de docu- linha multidimensional
mento, onde cada ‘palavra’ é trata-
máquina supervisionado, algo
apropriado para a classificação de da como uma variável discreta. para encontrar chão.
dados linearmente separáveis.
As SVMs podem ser classificadas
Essencialmente, dado um con- em múltiplas classes, mas opta-
junto suficientemente grande de mos por utilizar uma hierarquia
dados de treinamento rotulados - de duas classes simples de SVMs,
uma SVM irá tentar encontrar um ligadas de forma hierárquica.
plano melhor entre os exemplos
- ou seja, desenhar uma primeira
linha multidimensional para en-
contrar chão.

Saiba mais sobre SVM’s aqui e


aqui.

Aqui, temos algumas possibili-


dades de separar este conjunto
de dados:

A principal razão para isto é que,


quando tentamos, nos pareceu
produzir resultados melhores; e,
importante ressaltar, utilizou-se
muito menos memória em nos-
sa plataforma de aprendizado de
máquina, pois cada SVM só ne-
cessita saber sobre duas classes
de dados. A grande utilização
de conjuntos de dados (mais de
Fonte da imagem: opencv.org. 300 exemplos) e grandes veto-
res de entrada (1 milhão de pa-

6
lavras diferentes conhecidas) foi Utilizando apenas as palavras do não-zeros, e a biblioteca (no nos-
certamente um obstáculo. Usa- exemplo anterior, podemos ver so caso LibSVM) irá magicamente
mos também algumas técnicas que uma palavra se repete, então descobrir os locais corretos e
bem conhecidas para fazer um podemos transpor o dado da se- preencher os buracos.
pré-processamento em nossos guinte forma:
documentos o que nos ajudou Para isto, deve ser passado o
a reduzir o tamanho da variável, Occurrences     Term vetor de termos e as classes que
como: conversão para letras representam como “Índice do
1 fantastic
minúsculas, stemização, remoção Termo” relativo ao vocabulário in-
de números e de caracteres inco- 1 great teiro para todos os exemplos de
muns e palavras “ruidosas”. 1 jean treinamento que desejar utilizar.
2 men Por exemplo:
A Stemização é uma técnica co- 1 pair
mum e útil quando se lida com Term Index Term
1 skinny
grandes quantidades de textos,
0 acid
com objetivo de escolher pala-
vras diferentes porém com sig- Isto pode ser representado em 1 bootcut
nificados e radicais parecidos, e um vetor na forma: [1,1,1,2,1,1] 2 fantastic
então “reduzir” a um símbolo co- 3 great
mum. Por exemplo, as palavras Isso funciona bem para um
conjunto de poucos termos. 4 jean
“gato”, “gata”, “gatos”, “gatas” têm
Porém, conforme adicionamos 5 men
significados semelhantes. Quan-
do aplicado o algoritmo “Porter mais e mais exemplos, nosso 6 pair
stemmer”, o resultado é “gat”; vocabulário aumenta. Por exem-
7 skinny
fazendo desta forma cortamos plo, quando adicionamos outro
exemplo que não é jeans skinny 8 wash
pela metade o número de pala-
masculino: “women bootcut acid 9 women
vras para nos preocupar. Usando
sistemização em conjuntos com wash jean”.
Então, para “men fantastic
a remoção de palavras “ruido-
Precisamos aumentar o tamanho great pair men skinny jean”,
sas” (palavras repetitivas que não
do vocabulário com o qual o al- poderíamos descrever como:
trazem significados como “o”, “a”,
“os, “as”, “e”, “com”...) pudemos che- goritmo precisa se preocupar:
[acid,bootcut, fantastic, Índice do termo #2 : 1
gar a um número reduzido e pos-
great, jean, men, pair, ocorrência
sível de trabalhar.
skinny, wash, women]. Índice do termo #3 : 1
ocorrência
Criando SVMs
Isto significa que nosso vetor ini- Índice do termo #4 : 1
Uma vez que tenha pré-pro- cial de termos para jeans skinny ocorrência
cessado seu conjunto de texto, masculinos foi alterado para: Índice do termo #5 : 2
o próximo passo é treinar seu [0,0,1,1,1,2,1,1,0,0]. ocorrência
modelo. Para isto, primeiro é pre- Índice do termo #6 : 1
ciso transformar seus textos em Quando lidamos com milhares ocorrência
um formato que a SVM possa en- de fontes, nosso vocabulário Índice do termo #7 : 1
tender - isto é conhecido como começar a ficar grande, tornan- ocorrência
“vetorização”. A seguir, temos do-se cada vez mais pesado, e as-
uma simples descrição do proces- E que ainda pode ser transfor-
sim os exemplos para treinamen-
so para a seguinte sentença: mado em algo mais sucinto:
to começam a ficar vazios em sua
[2:1,3:1,4:1,5:2,6:1,7:1].
maioria e muito grandes: [0,0,0
“Men, you’ll look fantastic in this ,0,0,0,0,0,.....,2,0,0,0,0
great pair of men’s skinny jeans.” Alexandre Kowalczyk tem uma
,0,.....1,0,0,0,0,…].
explicação ótima para a prepa-
Após o pré-processamento como ração de vocabulário aqui, assim
Felizmente, muitas bibliotecas
descrito acima (sistemização e re- como outros tutoriais ótimos so-
de aprendizados de máquina
moção de palavras): bre SVM.
permitem que seu vetor seja
transformado de termos em um
“men fantastic great pair men vetor esparso - isto significa que
skinny jean”. só precisa trabalhar com os itens

7
Hierarquia e estrutura de dados
Um aprendizado-chave para nós: a maneira como estas SVMs foram estruturadas pode ter
um impacto significante no quanto de dados de treinamento é necessário aplicar; por exem-
plo, uma simples abordagem poderia ser como abaixo:

Nesta abordagem, para cada subcategoria nova, duas novas SVM’s precisam ser treinadas
- por exemplo, a criação de uma nova classe de “Swimwear” iria precisar de uma SVM adicio-
nal embaixo de Men’s e Women’s - sem contar na potencial complexidade de se adicionar a
classe “Unissex” no topo. Além disso, grandes hierarquias tornam-se difíceis de se trabalhar.

Conseguimos evitar uma grande quantidade de trabalho de rotulagem e treinamento, ao


nivelar nossas estruturas de dados em subárvores da seguinte forma:

Ao desacoplar nossa estrutura de classificação da hierarquia final, é possível gerar a classifi-


cação final percorrendo a hierarquia de SVM com cada documento e verificando os resulta-
dos com uma lógica simples baseada em conjuntos, como:

Mens Slim-fit jeans = (Mens and Jeans and Slim Fit) and not Womens

Essa abordagem reduz bastante o número de SVMs necessárias para classificar documentos,
pois os conjuntos resultantes podem ser interseccionados para representar a classificação
final.

8
Deve-se notar que ao se adicionar novas classes, abre-se um número exponencialmente
crescente de categorias finais. Por exemplo, adicionar uma classe “infantil” no nível superior
permitiria imediatamente a criação de uma dimensão inteira de novas categorias infantis
(jeans, camisetas, roupas íntimas, etc.), com um mínimos de dados de treinamento adicio-
nais (apenas uma SVM adicional):

Reutilização de dados
Por causa da estrutura que escolhemos, uma das principais informações que conseguimos
alavancar foi a reutilização de dados de treinamento, por meio de vinculação de dados
relacionados. A vinculação de dados nos permitiu reutilizar nossos dados de treinamento
por um fator de 9x - reduzindo assim enormemente o custo e aumentando a precisão das
previsões.

Para cada classe individual, obviamente queremos o maior número possível de exemplos
de dados de treinamento, cobrindo ambos resultados possíveis. Mesmo que tenhamos
construído excelentes ferramentas internas, principalmente uma interface de usuário rápi-
da para pesquisar, classificar e rotular exemplos de dados de treinamento em grandes lotes
- rotular milhares de exemplos de cada tipo de produto ainda pode ser trabalhoso, caro e
propenso a erros. Determinamos que a melhor maneira de contornar esses problemas era
tentar reutilizar todos os dados de treinamento que pudéssemos, em todas as classes.

Por exemplo, considerando algum conhecimento básico de domínio das categorias, sabe-
mos com certeza que “máquinas de lavar roupa” nunca podem ser “limpadores de carpetes.

Ao adicionar a capacidade de vincular “Excluir dados”, podemos reforçar a quantidade de


exemplos de treinamento “Negativos” para a SVM “máquinas de lavar”, adicionando os dados
de treinamento “Positivos” da SVM “limpadores de carpetes”. De maneira mais simples, uma

9
vez que sabemos que “limpadores de carpetes nunca podem ser “máquinas de lavar roupa”
- podemos também reutilizar esses dados de treinamento.

Essa abordagem tem um bom aumento, pois sempre que for necessário adicionar alguns
dados de treinamento adicionais para melhorar a SVM “limpadores de carpetes” - ela melho-
ra sem saber a classe “máquinas de lavar”, por meio de dados negativos vinculados.

Por último, outra chance de reutilização (ao considerar uma hierarquia), são os dados de
treinamento positivos para qualquer nó filho, pois também são sempre dados de trein-
amento positivos para seu pai.

Por exemplo: “Jeans” são sempre “Roupas”.

Isso significa que, para cada exemplo positivo de dados de treinamento adicionados à SVM
“Jeans”, um exemplo positivo adicional também é adicionado à SVM “Vestuário” por meio de
uma vinculação.

Adicionar dados vinculados é muito mais eficiente do que rotular manualmente milhares de
exemplos.

Conclusão
Cremos que as Máquinas de Vetores de Suporte nos ajudaram a alcançar uma qualidade e
velocidade de classificação que nunca poderíamos alcançar sem aprendizado de máquina.
Como tal, aprendemos que as SVMs são um excelente complemento para qualquer toolkit
de desenvolvedores, e que qualquer investigação também deve servir como uma boa intro-
dução a alguns conceitos-chave de aprendizado de máquina.

Além disso, quando se trata das especificidades dos sistemas de classificação hierárquica,
desacoplar o componente de classificação da hierarquia resultante, nivelar a estrutura de
dados e possibilitar a reutilização dos dados de treinamento será benéfico para obter o
máximo de eficiência possível. As abordagens descritas acima não só ajudaram a reduzir a
quantidade de dados de treinamento que precisávamos rotular, mas também nos deu uma
maior flexibilidade geral.

10
Essencialmente, dado um
conjunto suficientemente
grande de dados de
treinamento rotulados
- uma SVM irá tentar
encontrar um plano melhor
entre os exemplos - ou seja,
desenhar uma primeira
linha multidimensional para
encontrar chão.

11
pontos principais DE VOLTA PARA O FUTURO:
DESMISTIFICANDO O VIÉS
• O viés nos dados criou um gargalo na IA
corporativa que não pode ser resolvido
por meio da otimização excessiva de

COGNITIVO
algoritmos de aprendizado de máquina
ou pela invenção de novos algoritmos;

• O viés cognitivo é a presença


acidental de informações nos dados
de treinamento que nunca estarão
legitimamente disponíveis em produção. por: Mayukh Bhaowal
Em termos leigos, é como o Marty McFly
(em De volta para o futuro) viajando
para o futuro, colocando as mãos no Era uma vez, um executivo que
Almanaque Esportivo e usando-o para
apostar nos jogos do presente; acompanhava os leads de vendas infor-
• Não há bala de prata que resolva
mando os dados mínimos necessários para
isso. Uma combinação de métodos inserir um registro de lead. A entrada de
estatísticos e recursos de engenharia
podem ajudar a detectar e corrigir este dados é uma dor, todos sabemos disso!
efeito;
Enquanto ele trabalhava no processo de
• Recursos que exibem esse viés precisam
ser diferenciados dos preditores
conversão dos leads, alguns deles se trans-
verdadeiros e com isto, determinar o formavam em compras. No momento da
limite correto é a chave fundamental;
conversão, ele preenchia informações adi-
• No Salesforce Einstein, a conscientização
sobre esse viés com nossos clientes
cionais apenas para aqueles que tinham o
foi o primeiro obstáculo, antes que resultado positivo de conversão em com-
pudéssemos resolvê-lo
pras.

12
Se treinar seu algoritmo de
aprendizado de máquina com
anos de tais dados rotulados,
ele correlacionará esses recursos
com um rótulo positivo, embora
eles nunca estivessem realmente
disponíveis antes da conversão.
O processo de negócios criou um
viés nos dados desde o início..

Essa história se repete em


diferentes casos de uso, usuários
e dados corporativos. Algoritmos
de aprendizado de máquina fre-
quentemente assumem que um
mítico “conjunto de dados per-
feito” é alimentado para prever a
rotulação desejada. Na realidade,
muitas vezes há muito ruído nos
dados. O calcanhar de Aquiles
neste domínio é o Hindsight Bias
(também conhecido como label
leakage ou data leakage). É a pre-
sença acidental de informações
nos dados utilizados para tre-
inamento que nunca estarão
legitimamente disponíveis em
um ambiente de produção, heres, crianças e a classe alta, tinham
causando resultados irreais no maior probabilidade de sobreviver do Cabin class B/C more
ambiente de pesquisa, levando a que outros. O aprendizado de máquina é likely to survive
resultados ruins no ambiente de usado para identificar esses sinais e pre-
produção. ver quais passageiros sobreviveriam à
tragédia.
Albert Einstein certa vez
descreveu o seguinte cenário: “Se O que muitos não sabem é que os da-
tivesse uma hora para resolver um dos utilizados no desafio de Kaggle tra-
problema, dispensaria 55 minutos ta-se da versão filtrada e limpa. Os dados
pensando no problema e 5 minu- originais possuíam recursos adicionais,
tos pensando em soluções. dois dos quais eram particularmente
problemáticos: os campos Boat e Body.
Então, vamos nos aprofundar No rescaldo do naufrágio, era atribuído
neste problema um pouco mais, aos passageiros um número de barco,
com um exemplo: caso chegassem em segurança a um bar-
co salva-vidas, ou um número de corpo,
Desmistificando o viés caso fossem eventualmente encontrados
cognitivo utilizando o mortos. Bem, claro! Se houver um número
Titanic de corpo, o passageiro está morto. Você
Na comunidade de aprendiza- não precisa de um algoritmo sofisticado
do de máquina, a previsão de de aprendizado de máquina para lhe diz-
sobrevivência do Titanic é bem er isso.
conhecida. A falta de salva-vi-
das suficientes foi responsável Ao utilizar o conjunto de dados original,
por muitas vidas perdidas após as informações sobre o rótulo desejado
o naufrágio. Grupos específi- foram inseridas nos dados de treinamen-
cos de passageiros, como mul- to. Barco e corpo só são conhecidos no
futuro após o evento já ter ocorrido. Eles

13
rótulo desejado. A Correlação
de Pearson fornece uma medida
numérica no intervalo (-1,1) entre
o recurso e o rótulo, que expressa
a intensidade da associação entre
o recurso e o rótulo, bem como a
direção. Embora funcione muito
bem para recursos numéricos,
ele também pode funcionar para
recursos categóricos assim que
forem vetorizados. No entanto,
se os categóricos tiverem um
grande número de valores
exclusivos (por exemplo, cidades
no mundo), a correlação perderá
a associação com rótulos devido
não são conhecidos no presente palco hoje em aplicações de à diluição do recurso em várias
ao fazer a previsão. Se treinar- inteligência artificial. Há uma colunas durante a vetorização.
mos o modelo com esses dados, corrida para ganhar uma fração Isso pode ser resolvido utilizando
ele terá um desempenho ruim no de uma melhoria percentual na CramersV e, portanto, é um teste
presente, já que essa informação precisão do modelo, otimizando estatístico mais preferido para
não estaria legitimamente os algoritmos de modelagem ou recursos categóricos.
disponível. inventando novos. Embora isso
seja útil, é possível obter um re- O impacto de tais características
Este problema é conhecido for- torno maior para o investimen- tendenciosas pode ser mais
malmente como viés cognitivo. to, focando onde o gargalo é o complicado quando afeta uma
E ocorre predominante em da- aprendizado de máquina aplica- pequena fração dos exemplos.
dos do mundo real, que teste- do, especificamente com dados Imagine dados geográficos
munhamos em primeira mão corporativos. O viés cognitivo é globais. A parte das linhas em
ao criar aplicações preditivas no uma dessas áreas, em sua maio- que City = San Francisco pode
Salesforce Einstein. Aqui está ria inexplorada. Então, como po- ser uma em mil. O Lift é uma
um exemplo real no contexto demos resolver esse problema? medida alternativa que captura
da previsão da conversão do essa dispersão do Viés Cognitivo.
lead de vendas: os dados tinham
um campo chamado deal value, Estratégias para  2. Análise estatística para
que era preenchido intermiten- mitigação recursos derivados
temente quando um lead era Uma estratégia que se mostrou
1. Análise estatística para
convertido ou estava próximo de útil é executar alguma engenharia
recursos de entrada
ser convertido (semelhante aos preliminar de recursos antes de
Há um conjunto de testes
campos Boat e Body na história
estatísticos que podemos
do Titanic).
executar nos recursos de
entrada para detectar uma forte
Em termos leigos, é como o Mar-
associação dos recursos ao
ty McFly (em De volta para o fu-
turo) viajando para o futuro, co-
locando as mãos no Almanaque
Esportivo e usando-o para apos-
tar nos jogos do presente. Como
a viagem no tempo ainda está a
alguns anos, o viés Cognitivo é
um problema sério hoje em dia.

O viés cognitivo versus a


modelagem de algoritmo
Algoritmos de Aprendizado de
Máquina ocupam o centro do

14
executar testes estatísticos nos Um teste estatístico como o mações sobre o rótulo no mo-
recursos de entrada. CramersV pode então revelar mento ou logo antes de o rótulo
a forte associação entre o bin real ser determinado, podemos
Por exemplo, muitas característi- específico e o rótulo, expondo observar a distribuição dos re-
cas categóricas com viés cog- assim o viés. cursos nos dados de treinamen-
nitivo seguem o padrão de ser to e os dados de score (antes de
nulo, até que o rótulo desejado O outro padrão digno de nota conhecer o rótulo real). Se algu-
seja determinado. Eles tendem que observamos: características ma das características apresentar
a ter algum valor preenchido, categóricas disfarçadas de texto. uma lacuna estatisticamente sig-
próximo ao quanto o rótulo é Por exemplo, ao prever se em um nificativa nas duas distribuições,
especificado. Os campos boat e acordo haverá perda ou ganho, isso é um candidato a viés
body, por exemplo, dos dados havia um recurso chamado Lost cognitivo.
do Titanic são exemplos desse no palco. Claramente, fortemente
padrão. A maneira de eliminá-los tendencioso, foi definido como O ponto de corte temporal ou
é adicionar um recurso deriva- um recurso de texto, mas com por registro de data e hora é uma
do do indicador nulo (isNull) e apenas três valores possíveis. técnica relacionada. Neste caso,
usar o CramersV como um teste Uma checagem de cardinalidade determinamos um timestamp
estatístico. em tais recursos, convertendo-os de corte como o momento em
em categóricos e, em seguida, que o evento de previsão deve
A correlação nem sempre aplicando os testes estatísticos ocorrer, com base nos registros
captura recursos numéricos com de CramersV pode revelar um atuais e passados. Em seguida,
viés cognitivo. Por exemplo, viés cognitivo. excluímos todos os dados antes
no contexto de prever se em do evento de interesse. Por isso,
uma oportunidade de vendas 3. Treinamento versus score de não usamos nenhum dado que
haverá ganho ou perda, havia distribuição coletamos perto da previsão ou
um recurso chamado receita Algumas vezes, o viés cognitivo depois, ou seja, no futuro.
esperada. O sistema preencheu mais indescritível pode não ser
o valor depois que o vendedor exposto às técnicas apresentadas  4. Validação cruzada e a prepa-
fechou a oportunidade. anteriormente apenas olhando ração de dados
Quando o vendedor perdeu para os dados de treinamento. É crucial executar toda prepa-
a oportunidade, o sistema Uma das principais suposições ração de dados e engenharia de
calculou a receita esperada como por trás do treinamento de um recursos em cada validação cru-
0 ou 1. Caso contrário, o sistema algoritmo de aprendizado de zada. Por exemplo, se usarmos
a calculou como um número máquina é que os dados usados as informações do rótulo em
grande. Uma árvore de decisão para treinamento são semelhan- qualquer etapa de engenharia de
pode ser usada para descobrir tes aos dados utilizados para recursos, como a categorização,
as duas faixas: [0,1] e [2, infinito]. score. introduzimos inerentemente o
Depois de colocar um recurso viés cognitivo nos dados. O mes-
numérico, é possível tratá-lo Como os recursos com viés mo se aplica aos métodos de
como um recurso categórico. retrospectivo contêm infor- seleção de recursos, remoção de

15
outliers, codificação e dimensionamento de recursos para redução de dimen-
sionalidade. Se executarmos qualquer um deles nos dados inteiros antes da
validação cruzada, então os dados de teste em cada dobra do procedimento
de validação cruzada desempenharam um papel na escolha dos recursos, e
isso introduz um viés cognitivo nos dados.

Isto é um viés cognitivo ou uma predição verdadeira?


Em todos os métodos discutidos até agora, o aspecto mais difícil é descobrir o
limite certo para os seus dados e caso de uso, o que ajudaria a revelar um viés
cognitivo. Qual deve ser a medida de correlação, além da qual um recurso é
considerado como tendencioso? 0,9 é um bom limiar ou deveria ser 0,75? Em
que ponto um recurso é tendencioso versus realmente um verdadeiro preditor?
É preciso tomar a mesma decisão em todas as outras medidas estatísticas,
incluindo a diferença na distribuição de treinamento e pontuação e assim por
diante.
No Salesforce Einstein, nossa experiência na criação de modelos para uma am-
pla variedade de casos de uso e dados de diferentes formas e tamanhos ajuda
a informar limites aceitáveis. No entanto, está longe de ser cravado na pedra.
Estamos continuamente fazendo iterações nos limites para refletir os dados e
problemas do mundo real.

Conclusão
O viés cognitivo na IA corporativa é um problema mais prevalente quando
comparada à IA na academia ou para um consumidor. O desafio mais signifi-
cativo que enfrentamos foi a conscientização com nossos clientes. Depois que
passamos por isso, entender os processos de negócios e os padrões de dados
que introduzem esse viés foi crucial. Essa jornada nos ajudou a desenvolver
soluções que automatizam a detecção do viés cognitivo. O resultado que en-
contramos foram previsões de aprendizado de máquina mais confiáveis.

16
pontos principais ENTENDENDO O COMPORTAMENTO
• Antes de entrar em machine learning
para o comportamento sistêmico de
softwares, deve-se ter conhecimento
DE SISTEMAS E SOFTWARES COM
MACHINE LEARNING E DADOS DE
sobre os conceitos de séries temporais.
• Dados faltantes na sua série temporal
podem levar a resultados inesperados

SÉRIES TEMPORAIS
enquanto estiver analisando-os. A
“biblioteca Pandas” pode ajudar a
trabalhar com o preenchimento destes
valores de uma forma sensata.
• Quando humanos estão usando seu
serviço, espere pela sazonalidade em por Roland Meertens
seus dados. Leve em conta este detalhe
quando for desenhar seus algoritmos
preditivos.
• Tome cuidado com o limite definido no No QCon.ai 2018, David Andrzejewski apresentou
momento da detecção de anomalia. “Entendendo o Comportamento Sistêmico
Eventos que são improváveis para
um simples servidor, tornam-se muito de Softwares com Machine Learning e dados
prováveis quando estiver dimensionando
sua aplicação.
de séries temporais”. David é gerente de
• Entenda o que estiver tentando
engenharia na Sumo Logic, uma plataforma em
alcançar quando estiver analisando nuvem para análise de dados de máquinas. Os
séries temporais. Tenha certeza de não
usar análises determinísticas como a
desenvolvedores que já estiverem rodando um
linguagem SQL permite. Conheça o software (como um app ou cluster em nuvem)
comportamento de seu algoritmo em
uma escala matemática e se realmente podem usar a Sumo Logic como backend de
está automatizando a interpretação
deste, ou se está transformando dados
seus logs de sistemas. A Sumo Logic proporciona
em resíduos preditivos e os usando em inteligência contínua para dados de máquina.
suas análises.

17
Muitas coisas rodam em soft-
wares, e técnicas de inteligência
artificial estão entrando no mun-
do de softwares. Antes de entrar a
fundo no impacto que o machine
learning proporciona no compor-
tamento sistêmico de softwares,
é preciso entender as aborda-
gens tradicionais relacionadas
às séries temporais. Conhecer as
limitações dos métodos tradi-
cionais permite que faça trocas
conscientes ao optar por alguma
técnica. Primeiro, pergunte a você
mesmo se conhece o que está
tentando realizar. Uma vez que dado manualmente é impossível, nas olhar os dados permitirá você
saiba, se questione se é possível então é preciso a inteligência de a entender completamente um
cumprir isto com uma análise máquina. Entretanto, analisar os nível maior de Donkey Kong.
simples ou determinística. Olhe dados e encontrar apenas o que
apenas para o machine learning o seu sistema estiver REALMENTE Esta analogia torna-se importante
quando os outros métodos forem fazendo é uma tarefa difícil senão para quando estiver usando ape-
impossíveis. impossível. Um artigo que vai nas dados brutos para entender
mais a fundo na granularidade sistemas multiescala, dinâmicos e
Entender o que seu software complexos. Agregar os dados bru-
do dado e em qual momento
está fazendo e o porquê de estar tos em visões de séries temporais
você precisa dele é o “Poderia
falhando pode ser difícil. As em- torna o problema mais acessível.
um neurocientista entender um
presas que implantam serviços Uma boa fonte sobre isso é o livro
microprocessador?”. Os autores
que dependem de muitos outros “Site Reliability Engineering”, que
deste artigo usam um simulador
microsserviços em vários servi- pode ser lido gratuitamente.
para jogar uma versão antiga de
dores podem se beneficiar de um
Donkey Kong. Por possuírem a Entender sistemas multiescalas,
diagrama que lista as dependên-
memória da simulação, tiveram dinâmicos e complexos é espe-
cias entre estes microsserviços.
acesso aos estado completo do cialmente importante para um
Ao desenhá-lo, pode-se ter uma
sistema. Teoricamente, isto signifi- engenheiro em serviço. Quando
imagem do que as pessoas
ca que é possível analisar o dado um sistema cai, é preciso desco-
chamam de “estrela da morte” de
e tentar fazer uma engenharia re- brir o que o sistema está real-
microsserviços:
versa no que estiver acontecendo mente fazendo naquele momen-
Muitas aplicações geram tera- com um nível maior de entendi- to. Por este motivo, o engenheiro
bytes de logs por dia, que mento, apenas por olhar o dado precisa dos dados brutos e dos
consistem de gigabytes de códi- em detalhe. Embora essa táti- meios para visualizá-los, assim
go fonte e geram milhões de ca possa proporcionar insights como métricas de alto nível que
métricas por minuto. Analisar este pequenos, é improvável que ape- conseguem sumarizar os dados.
Um engenheiro nesta situação
normalmente quer entender
como este servidor está se com-
portando quando comparado a
outro servidor, ou a ele mesmo no
dia anterior, ou a ele mesmo antes
de uma atualização do software.

Vantagens e desvanta-
gens dos percentis
Quando olhamos um lon-
go histórico de dados (log),
não entramos nos detalhes de
milissegundos contínuos. Seus

18
dados são quantificados em problema é ser fácil agregar as San Francisco 2016, na qual esse
tempo. O caminho mais básico análises simples de vários con- conceito foi discutido no contex-
para fazer isso é utilizar funções juntos de dados. Pode-se calcu- to do Apache Beam.
como min, max, average (média), lar o mínimo de dois conjuntos
sum (soma) e count (contagem). de dados observando apenas os O manuseio de dados faltantes
Muitas pessoas que agregam mínimos de ambos. No entan- também é importante. An-
dados gostam de usar percentis to, não se pode simplesmente tes de aplicar qualquer ma-
também. A vantagem dos per- usar os métodos com percentis. chine learning, é preciso saber
centis é que podem expressar É matematicamente impossível como deseja lidar com os va-
seus dados em uma linguagem combinar a p95 do dataset X e lores ausentes. Colocar valores
não ambígua. Um exemplo de a p95 do dataset Y. Isso significa constantes, como zeros ou infini-
sentença sem percentil é “O tem- que é difícil dizer algo significa- tos, no lugar de valores ausentes
po máximo para carregar uma tivo sobre uma combinação de provavelmente levará a resulta-
solicitação foi 4.300 milissegun- vários conjuntos de dados sem dos inesperados. No entanto, não
dos.” Esta sentença é precisa mas muito trabalho. colocar nada lá provavelmente
não ajuda a determinar quão dis- fará com que tenha exceções de
tante está dos padrões de uma Conceitos importantes runtime posteriormente no loop.
operação normal que falhará. de séries temporais Isso pode ser prevenido usando
Porém, diga-se que “p99 é menos pandas, uma biblioteca Python
Um aspecto básico de monito-
do que 2.000 milissegundos” in- de análise de dados, que é um
ramento para séries temporais
dica que não mais que 1% das verdadeiro canivete suíço para
são as comparações com mu-
solicitações de clientes levam manipulação de dados. Pode
dança de periodicidade. Isso é
mais do que dois segundos para ser usado o método fillna(), que
particularmente importante se
carregar. possui alguns valores padrão
quiser comparar a latência de es-
que são realísticos e sensatos.
crita de um cluster com a latên-
A desvantagem dos percentis é Observe que há muitas manei-
cia de escrita do mesmo host no
que dificultam a combinação de ras interessantes de preencher
dia anterior. Isso também pode
dados em algo significativo. Em- lacunas em seus dados e há
ser combinado com “windowing
bora os valores em torno do 50º muitas formas e métodos que
data” (dados de janela), conheci-
percentil tendam a ser estáveis, podem ser usados. Algumas
do como “agrupamento ao longo
os percentis mais altos variarão áreas chamam isso de “predição”
do tempo”. Mais informações po-
muito e têm uma distribuição de dados faltantes, outras
dem ser encontradas na palestra
longa de valores possíveis. Outro áreas chamam de “imputação”,
do Tyler Akidau durante o QCon

19
Algo importante a se considerar
ao fazer a modelagem preditiva
é a sazonalidade ou o ritmo de
seus dados. Qualquer serviço
que tenha humanos no circuito
tem potencial para um ritmo.
Por exemplo, a maioria das pes-
soas usa a Sumo Logic no tra-
balho, o que significa que os da-
dos de uso da Sumo Logic para
qualquer país mostrarão muita
atividade durante o horário nor-
mal de trabalho, mas não tanto
fora desse horário. Porém, os da-
dos de uso do Netflix provavel-
“inferência” ou “amostragem”. Modelos preditivos e mente mostram uma tendência
Você pode usar métodos de outliers inversa. Isso pode ser modelado
preenchimento, simplesmente ajustando manualmente seus
Uma abordagem possível é a
preenchê-los ou interpolá-los. dados ou usando transformadas
detecção de outliers usando
de Fourier. Outra opção que mui-
modelagem preditiva. Ao prever
Agindo nos dados tas pessoas usam são os modelos
o comportamento normal de
A simple thing to think about ocultos de Markov.
suas máquinas, também pode-se
Uma coisa simples de se detectar quando suas máquinas
pensar ao configurar um sistema agem fora da saída esperada.
Mineração de dados de
de logs é o alerta de limite fixo. No entanto, é preciso levar mui-
séries temporais basea-
O objetivo dos alertas é alertar to em consideração antes de se
da em distância
alguém quando o site cair ou fazer isso. Existem quatro per- Quando se tem várias máqui-
outro evento inesperado. Muitas guntas-chave a se fazer: nas, provavelmente é desejável
pessoas iniciam o desenvolvi- comparar o comportamento das
mento de alertas contratando • O comportamento é real- máquinas entre si. Se nota-se
um especialista que pode definir mente regular? um comportamento estranho
limites sensatos para vários as- em uma máquina, é desejável
• Como o comportamento
pectos do sistema. Por exemplo, descobrir se outras máquinas es-
pode ser modelado?
poderia ser definido um alerta tão se comportando da mesma
para disparar assim que 5% das • Como pode ser definido maneira. Talvez cada uma esteja
solicitações demorarem mais um grande desvio do que é executando versões diferentes
de dois segundos, notificando o esperado? de software, talvez estejam no
engenheiro que está em serviço mesmo data center ou talvez
• É realmente valioso detectar
naquele momento. alguma outra coisa esteja acon-
surpresas e desvios do que é
esperado? tecendo. Para analisar isso, deve-
Contudo, os especialistas hu- se comparar a distância entre as
manos não escalam bem. Talvez séries temporais.
queira automaticamente com-
parar o comportamento de al-
gumas máquinas com as de
outras máquinas, especialmente
quando se tem muitas máqui-
nas disponibilizando muitas
séries temporais. Não se pode
analisar e comparar todas essas
séries temporais sozinho, e um
grande número de máquinas
pode impedir a comparação en-
tre séries temporais. Este é o pon-
to onde pode-se tentar aplicar o
machine learning.

20
Qual métrica deve ser usada para formações delas. Esses logs são usar isso para ajudar nas pre-
determinar a similaridade entre um rastreamento aproximado visões e detecção de anomalias,
duas séries temporais? Simples- da execução de programa. Como mas o deep learning ainda não
mente diferenciá-las de hora em não se pode inserir um depura- consegue nos livrar da com-
hora subtraindo uma da outra dor para suas máquinas depois preensão do domínio do prob-
obrigatoriamente dará resulta- de estarem em produção, só é lema. Ainda é preciso encontrar
dos errados. Na imagem acima, possível deduzir o comporta- uma maneira de enquadrar seus
embora as séries temporais se- mento do seu software por meio problemas. Uma abordagem
jam bastante semelhantes, essa dessas mensagens de log. Se possível é o uso de redes neurais
métrica dirá que são completa- o seu programa imprimir uma recorrentes para prever. Essa é
mente diferentes. string toda vez que uma solici- uma ótima ideia se tiver acesso a
tação expirar, será possível con- muitos dados de treinamento. Se
Existe todo um universo de tar o número de tempos limite a não, sua primeira prioridade de-
métricas que pode ser usado. cada hora. Isso resultará em uma veria ser a agregação dos dados
Uma técnica popular é a dis- série temporal, que você acabou antes de tentar fazer algo com
torção dinâmica do tempo, que de aprender a analisar! eles.
basicamente questiona como se
pode transformar, deformar ou Talvez seja tentado a definir Para concluir, a toca do coelho
distorcer sua série temporal para um limite nos valores de certas no quesito de dados de inspeção
colocá-los no melhor alinhamen- séries temporais. No entanto, é muito funda. Temos máquinas
to e qual penalidade terá que ser não queira se enganar pensan- controlando nossas vidas. E essas
paga por essa modificação. Com do que encontrou um even- máquinas produzem dados, mas
essa métrica, pode-se localizar to interessante quando, na ver- analisar os dados é complicado,
os N hosts que se comportam dade, o evento não tinha nada por isso temos as ferramentas de
de maneira mais semelhante demais. Imagine que tenha um machine learning, que são deli-
ou pode-se criar um gráfico de modelo super-preciso e dese- cadas. É de grande importância
similaridade de host. O uso de ja enviar um alerta sempre que evitar ruídos e falsos positivos, e
clustering espectral pode for- houver apenas 0,01% de chance para fazer isso, é preciso ter cer-
necer uma imagem que informa de ocorrer um padrão. Com um teza de que se entende o que se
sobre qualquer estrutura em serviço com um milhão de séries está tentando fazer. Saiba por
seus hosts. temporais, pode-se esperar cerca que não está usando análises
de cem falsos positivos. Baron determinísticas semelhantes ao
Detecção de anomalias e Schwartz, em sua palestra “Por SQL e entenda os métodos usa-
classificação de eventos que ninguém se importa com dos em escala matemática. Por
com dados de log sua detecção de anomalias”, en- fim, saiba se está automatizando
tra em mais detalhes sobre quais a interpretação ou transforman-
Existem maneiras de trans-
técnicas deveriam ser usadas do dados em resíduos preditivos
formar seus dados de log em
para determinar um limite. e usando isso para previsão de
uma série temporal. Quando se
anomalias.
tem um alto volume de strings
Com todos os avanços recentes
semi-estruturadas, pode-se con-
em deep learning, talvez queira
tar as mensagens ou extrair in-

21
Algo importante a se
considerar ao fazer a
modelagem preditiva é a
sazonalidade ou o ritmo
de seus dados. Qualquer
serviço que tenha humanos
no circuito tem potencial
para um ritmo...
Outra opção que muitas
pessoas usam são os
modelos ocultos de Markov.

22
ANALISANDO E PREVENINDO O PRECONCEITO
INCONSCIENTE EM MACHINE LEARNING
por Srini Penchikala
Este artigo é baseado na palestra de Rachel Thomas, “Analisando e
Prevenindo o preconceito inconsciente na Aprendizagem de Máquina”
apresentado na QCon.ai 2018.
Thomas trabalha na fast, um Thomas discutiu o preconceito contratação e demissão de fun-
laboratório de pesquisa sem no aprendizado de máquina, cionários e no sistema de justiça
fins lucrativos que possui par- suas fontes e como evitá-los em criminal. O preconceito na codi-
ceria com o Instituto de Dados três estudos de caso. ficação traz armadilhas e riscos
da Universidade de São Fran- para o processo de tomada de
cisco em fornecer treinamento Estudo de caso 1: Soft- decisão.
em aprendizado profundo para ware para sistemas de
a comunidade de desenvolve- contratação, demissão e O Pro Publica em 2016 investi-
dores. O laboratório oferece um justiça criminal gou o algoritmo de reincidência
curso gratuito chamado “Prática COMPAS que é usado para prev-
Algoritmos de aprendizagem
em Aprendizado Profundo para er a probabilidade de um preso
profunda estão sendo cada vez
Programadores”. ou criminoso acusado cometer
mais usados para tomar de-
novos crimes caso liberado. O al-
cisões impactantes, como na
goritmo é usado para conceder

23
fiança, sentenciar e determinar esses são preocupantes porque também rotulou pessoas negras
a liberdade condicional. O Pro não há transparência. Por serem como gorilas.
Publica descobriu que a taxa de empresas privadas, não estão
falsos positivos (rotulado como sujeitas às leis estaduais/públi- Em 2016, o site Beauty.AI que
“alto risco”, mas não reincidente) cas da mesma maneira que os usava robôs com IA como juíz-
foi quase duas vezes maior para departamentos de polícia. Mui- es em concursos de beleza, de-
réus negros (taxa de erro de 45%) tas vezes, eles são protegidos no scobriu que pessoas com pele
do que para réus brancos (24%). tribunal por terem que revelar o clara eram julgadas muito mais
que estão fazendo. atraentes do que pessoas com
A etnia não era uma variável ex- pele escura. E em 2017, o Face-
plícita inserida nesse algoritmo, Além disso, há muitos precon- App, que usa redes neurais para
mas etnia e gênero são codifi- ceitos raciais nos dados policiais criar filtros para fotografias, criou
cados latentemente em muitas existentes, de modo que os con- um filtro de gostosura que ilumi-
outras variáveis, como onde juntos de dados dos quais esses nou a pele das pessoas e deu-lhes
moramos, nossas redes sociais algoritmos aprenderão serão mais recursos europeus. Rachel
e nossa educação. Mesmo em tendenciosos desde o início. mostrou um tweet do rosto real
um esforço consciente para não de um usuário e uma versão mais
levar em consideração a etnia Finalmente, repetidas falhas da sexy dele que o aplicativo criou.
ou gênero, não garante a falta visão computacional ocorreram
de preconceito - supondo que a ao trabalhar com pessoas ne- Thomas falou sobre um trabalho
deficiência visual não funcione. gras. Thomas disse que esta é de pesquisa de Joy Buolamwini
Apesar das dúvidas sobre a pre- uma combinação assustadora de e Timnit Gebru, que avaliaram
cisão do COMPAS, o Supremo coisas para dar errado. vários classificadores comerci-
Tribunal de Wisconsin confirmou ais de visão computacional da
seu uso no ano passado. Thomas Estudo de caso 2: visão Microsoft, IBM e Face++ (uma
argumentou que é horrível que computacional empresa chinesa). Eles desco-
ainda esteja em uso. A visão computacional costuma briram que os classificadores
ser ruim para reconhecer pessoas trabalham melhor em homens
É importante ter uma boa base negras. Um dos exemplos mais do que em mulheres, e melhor
para saber quando um desem- infames vem de 2015. O Google em pessoas com pele clara do
penho é bom e ajudar a indi- Fotos, que classifica automati- que pessoas com pele escura. Há
car um modelo mais simples camente as fotos, classificou uma lacuna muito perceptível:
que pode ser mais eficiente. Só fotos de formaturas e imagens a taxa de erro para homens de
porque algo é complicado não de edifícios de maneira útil. Ele pele clara é essencialmente 0%,
significa que funcione. O uso de mas varia entre 20% e 35% para
inteligência artificial (IA) para o
policiamento preditivo é uma
preocupação.

A Taser adquiriu duas empre-


sas de IA no ano passado e está
oferecendo um software prediti-
vo para departamentos de polí-
cia. A empresa detém 80% do
mercado das câmeras corporais
utilizadas por policiais nos EUA,
então eles têm muitos dados
de vídeo. Além disso, o Verge
revelou em fevereiro que a polí-
cia de Nova Orleans tem utiliza-
do o software de policiamento
preditivo da Palantir nos últimos
seis anos em um programa alta-
mente secreto que até mesmo os
membros do conselho da cidade
não sabiam. Aplicativos como

24
as mulheres de pele escura.
Tanto Buolamwini como Gebru
também analisaram as taxas de
erro para as mulheres por tom
de pele. Erros aumentaram com
a escuridão da pele. A categoria
da pele mais escura apresentava
taxas de erro de 25% e 47%.

Estudo de caso 3: incor-


porando palavras
O terceiro estudo de caso de
Thomas é a incorporação de
palavras em produtos como o
Google Tradutor.

Considere um conjunto de frases


como “Ela é médica. Ele é enfer-
meiro.” Então use o Google Tradu-
tor para traduzi-los para o Turco
e depois traduzi-los de volta para
o Inglês. Os gêneros misturados
e as frases passam a dizer: “Ele é
do Google: se alguém pergun- filhotes de animais. Mas o vetor
médico. Ela é uma enfermeira.”. O
tar sobre seus planos de férias, a da “avalanche” pode estar longe,
Turco tem um pronome singular
Resposta Inteligente sugere que já que não há conexão real entre
neutro de gênero que se traduz
se diga “Nenhum plano ainda” ou eles.
em um estereótipo no Inglês.
“Acabei de enviá-los para você”.
Isso acontece com outras lingua-
Para mais informações sobre
gens que têm pronomes singu-
Thomas falou sobre um exem- vetores de palavras, consulte “O
lares que são neutros em relação
plo no curso da fast.ai: “Prática incrível poder dos vetores de pa-
ao gênero. Foi documentado, por
em Aprendizado Profundo para lavras”, de Adrian Colyer.
várias palavras, que os estereóti-
Codificadores”. Neste exemplo,
pos de tradução sustentam que
as mulheres são preguiçosas,
podemos fornecer palavras e Word2Vec
recuperar uma imagem. Dado
que as mulheres são infelizes e Word2Vec é uma biblioteca de
às palavras “tenca” (um tipo de
muitas outras características. recursos incorporados de pa-
peixe) e “rede” ele retorna uma
lavras lançado pelo Google.
imagem de uma tenca em uma
Thomas explicou o motivo de Existem outras bibliotecas se-
rede. Esta abordagem passa
isto acontecer. Computadores melhantes, como o fastText do
por diversas palavras e não dá
e aprendizado de máquina tra- Facebook, e o GloVe do Grupo de
qualquer noção do significado
tam imagens e palavras como Processamento de Linguagem
dessas palavras serem semelhan-
números. A mesma abordagem Natural da Universidade de Stan-
tes. Então, “gato” e “catástrofe”
é usada para o reconhecimento ford. É preciso muito tempo, da-
pode ser um número sequen-
de fala e criação de legendas de dos e poder computacional para
cial, mas não há qualquer tipo de
imagens. A maneira como ess- treinar essas bibliotecas, por isso
relação semântica entre eles.
es algoritmos funcionam é que é útil que esses grupos já tenham
eles pegam uma imagem forne- feito isso antes de lançar suas
Uma abordagem melhor é repre-
cida e emitem algo como “um bibliotecas para uso público. É
sentar as palavras como vetores.
homem de camisa preta está to- muito mais fácil de usá-la já que
Os recursos incorporados nas pa-
cando guitarra” ou “operário de esta é uma versão já treinada.
lavras são representados como
colete laranja está trabalhando O código para os três projetos
vetores de alta dimensão. Ela deu
na estrada”. O mesmo mecanis- está disponível no GitHub, assim
um exemplo de “gatinho”, “filho-
mo sugere automaticamente como o workshop de incorpo-
te” e “patinho”, que podem estar
respostas a e-mails de produtos ração de palavras do Thomas. É
todos próximos uns dos outros
como uma Resposta Inteligente possível executar seu programa
no espaço, porque todos são

25
usando o Jupyter Notebook e ex- Tudo isso parece razoável até que classificava os restaurantes
perimentar palavras diferentes. agora, mas depois os pesquisa- mexicanos como inferiores,
dores analisaram nomes estereo- porque palavras incorporadas
Os vetores de palavra para pala- tipicamente de pessoas negras para “Mexicano” tinha conotações
vras semelhantes como “filhote” e nomes estereotipicamente de negativas. Estas incorporações de
e “cachorro” ou “rainha” e “prince- pessoas brancas. Eles descobri- palavras são treinadas com uma
sa” estão mais próximos no eixo. ram que os nomes dos negros quantia gigante de textos. Esses
E, claro, palavras não relaciona- estavam mais perto de palavras textos contêm muitos precon-
das como “celebridade” e “poeira” desagradáveis e os nomes dos ceitos raciais e de gênero, pois a
ou “gatinho” e “avião” estão mais brancos estavam mais perto de palavra incorporada aprende com
distantes. O programa usa uma palavras agradáveis, o que é um estas associações ao mesmo tem-
semelhança de coseno, não a preconceito. Eles encontraram po em que aprendem os signifi-
distância euclidiana, já que não uma série de preconceitos raciais e cados semânticos que queremos
se deseja usar a distância euclidi- de gênero entre grupos inteiros de que eles saibam.
ana em altas dimensões. palavras, o que produziu analogias
como “pai é médico como mãe é O aprendizado de máqui-
Essa solução pode ser usada enfermeira”, “homem é programa- na pode amplificar o
para capturar algo sobre idioma. dor de computador como mulher preconceito
Também é possível encontrar as é dona de casa”. Estas são todas as
O aprendizado de máquina pode
10 palavras mais próximas de analogias encontradas no Word-
realmente ampliar o preconceito.
uma palavra-alvo específica. Por 2Vec e no GloVe.
Um exemplo disso é discutido em
exemplo, se procurar as palavras
“Os homens também gostam de
mais próximas a “nadar”, receberá Thomas falou sobre outro exem-
fazer compras: Reduzir a ampli-
palavras como: “natação”, “remo”, plo de preconceito em um siste-
ficação do preconceito de gêne-
“mergulho”, “vôlei”, “ginástica” ma de resenhas de restaurantes
ro usando restrições de nível de
e “piscina”. Analogias de pa-
lavras também são úteis. Eles
captam coisas como “a Espanha
é para Madri, como a Itália é para
Roma”. No entanto, há muitas
oportunidades de preconceito
O aprendizado de máquina pode
aqui. Por exemplo, a distância
entre “homem” e “gênio” é mui- realmente ampliar o preconceito. Um
to menor que a distância entre
“mulher” e “gênio”. exemplo disso é discutido em “Os homens
Os pesquisadores estudaram
cestas de palavras de forma
também gostam de fazer compras”,
mais sistemática. Eles pegavam
uma cesta ou grupo de palavras, que analisou a rotulação semântica de
como todas as flores: trevo, pa-
poula, calêndula, iris, etc. Outra imagens em um conjunto de dados. Os
cesta eram insetos: gafanhoto,
aranha, percevejo, larva, etc.
Eles tinham uma cesta de pa-
pesquisadores descobriram que 67% das
lavras agradáveis (saúde, amor,
paz, alegria, etc.) e uma cesta de
imagens de pessoas que cozinhavam
palavras desagradáveis (abuso,
sujeira, assassinato, morte, etc.). eram mulheres, mas o algoritmo
Os pesquisadores analisaram as
distâncias entre essas diferentes
cestas de palavras e descobriram
classificou 84% dos cozinheiros como
que as flores estavam mais próx-
imas de palavras agradáveis e os
sendo mulheres.
insetos estavam mais próximos
de palavras desagradáveis.

26
corpus”, que analisou a rotulação to para promover esse tipo de Conjuntos de dados mais
semântica de imagens em um propaganda. representativos podem ser uma
conjunto de dados. Os pesquisa- solução. Buolamwini e Gebru
dores descobriram que 67% das Thomas mencionou um arti- identificaram as falhas de pre-
imagens de pessoas que cozin- go de pesquisa sobre como os conceito nos produtos de visão
havam eram mulheres, mas o al- laços de devolutivas descon- computacional mencionados an-
goritmo encontrou 84% dos co- troladas podem funcionar no teriormente e reuniram um con-
zinheiros como sendo mulheres. policiamento preditivo. Se um junto de dados muito mais repre-
Existe o risco de algoritmos de software ou uma análise prediz- sentativo de homens e mulheres
aprendizado de máquina ampli- er que haverá um alto índice de com todos os diferentes tons de
ficar o que vemos no mundo real. crimes em uma área, a polícia pele. Este conjunto de dados está
pode mandar mais policiais para disponível em Gender Shades. O
Thomas mencionou a pesquisa lá - mas porque há mais poli- site também oferece o trabalho
de Zeynep Tufekci, que forneceu ciais lá, eles podem fazer mais acadêmico deles e um pequeno
descobertas sobre a intersecção prisões, o que pode nos levar a vídeo sobre seus trabalhos.
entre tecnologia e sociedade. pensar que há mais crimes lá, o
Tufekci twittou que “o número que nos leva a enviar ainda mais Gebru e outros publicaram re-
de pessoas que me dizem que policiais para lá. Podemos entrar centemente um artigo chamado
a reprodução automática do facilmente neste ciclo de devolu- “Datasheets for Datasets”. O arti-
YouTube termina com vídeos de tivas descontroladas. go fornece um conjunto de da-
supremacia branca de todos os dos para registrar características
pontos de partida é bastante sur- Thomas sugeriu que precisamos e metadados que revelam como
preendente”. Exemplos incluem: realmente pensar sobre a ética de um conjunto de dados foi criado,
incluir certas variáveis em nossos como ele foi composto, que tipo
“Eu estava assistindo a um modelos. Embora possamos ter de pré-processamento foi feito,
vídeo de soprador de folhas e três acesso aos dados, e mesmo que que tipo de trabalho é necessário
vídeos depois, era a supremacia esses dados melhorem o desem- para mantê-lo e quaisquer con-
branca”; penho do nosso modelo, é ético siderações legais ou éticas. É
usar? Está de acordo com nossos muito importante entender os
“Eu estava assistindo a uma valores como sociedade? Até conjuntos de dados usados na
discussão acadêmica sobre as ori- mesmo os engenheiros precisam criação dos modelos.
gens da escravidão agrícola e o fazer perguntas éticas sobre o
próximo vídeo foi de negadores do trabalho que fazem, e devem ser Thomas enfatizou que é nos-
holocausto”; capazes de responder questões so trabalho pensar em conse-
éticas sobre o assunto. Vamos ver quências não intencionais com
“Eu estava assistindo a um menos e menos tolerância da so- antecedência. Pense em como
vídeo com minhas filhas sobre ciedade para isso. certas criaturas ou assediadores
Nelson Mandela e o próximo vídeo ou governos autoritários pode-
foi algo dizendo que os negros na Angela Bassa, diretora de ciên- riam usar uma plataforma que
África do Sul são os verdadeiros cia de dados da iRobot, disse: construímos. Como nossa plata-
racistas e criminosos”. “Não é que os dados possam ser forma poderia ser usada para
tendenciosos. Os dados são ten- propaganda ou desinformação?
É assustador. denciosos. Se quiser usar dados, Quando o Facebook anunciou
é necessário entender como eles que começaria a usar sua mod-
Renée DiResta, especialista em foram gerados”. elagem de ameaças, muitas pes-
desinformação e como a propa- soas perguntaram por que isso
ganda se espalha, notou há al- Tratando o preconceito não acontecia nos últimos 14
guns anos que ao se juntar a um em palavras anos.
grupo anti-vacina no Facebook, incorporadas
o site também recomendaria Há também um argumento para
Mesmo se removermos o pre-
grupos sobre curas naturais de não armazenar dados de que não
conceito no início do desenvolvi-
câncer, rastros deixados pelas fu- precisamos para que ninguém
mento do modelo, existem tan-
maças dos aviões da esquadrilha possa pegar esses dados.
tos lugares em que o preconceito
da fumaça, Terra plana e de to-
pode se infiltrar, que é necessário
dos tipos de grupos anti-ciência. Nosso trabalho é pensar em
continuar procurando.
Essas redes estão fazendo mui- como o software pode ser mal

27
utilizado antes que aconteça. A • Qual é a precisão de uma al- pequenas mudanças culturais”
cultura do campo da segurança ternativa simples baseada em por Julia Evans.
da informação é baseada nisso. regras? É muito importante ter
Precisamos começar a pensar uma boa linha de base, e essa A tecnologia avançada não é
mais em como as coisas podem deve ser a primeira etapa sem- um substituto para uma boa
dar errado. pre que estivermos trabalhando política. Thomas falou sobre os
em um problema, porque se al- estudantes da fast.ai de todo o
Perguntas a serem feitas guém perguntar se 95% de pre- mundo que estão aplicando o
sobre a IA cisão é boa, precisamos ter uma aprendizado profundo a prob-
resposta. A resposta correta de- lemas sociais, como salvar flo-
Thomas listou algumas pergun-
pende do contexto. Isso surgiu restas tropicais ou melhorar o
tas para perguntar sobre a IA:
com o algoritmo de reincidên- atendimento de pacientes com
cia, que não era mais eficaz do mal de Parkinson.
• Qual preconceito está nos da-
que um classificador linear de
dos? Existe algum preconceito
duas variáveis. É bom saber o Existem regulamentos de IA,
em todos os dados e precisamos
que é essa alternativa simples; como o Ato de Discriminação
entender o que é e como os da-
e Emprego, de 1967, e o Ato de
dos foram criados;
• Quais processos estão em Igualdade de Oportunidade de
vigor para lidar com recursos ou Crédito, que são relevantes. Estes
• O código e os dados podem
erros? Precisamos de um proces- não são perfeitos, mas são mel-
ser auditados? Eles são de códi-
so de apelo humano para coisas hores do que não ter qualquer
go aberto? Há um risco quan-
que afetam a vida das pessoas. proteção, uma vez que real-
do algoritmos proprietários de
Como profissionais, temos mente precisamos pensar sobre
código fechado são usados para
relativamente mais poder em quais direitos, como sociedade,
decidir coisas de saúde e justiça
fazer essas perguntas em nossas queremos proteger.
criminal e quem é contratado ou
empresas;
demitido;
Thomas concluiu sua palestra
• Quão diversificada é a equipe dizendo que nunca pode ser
• Quais são as taxas de erro
que a construiu? As equipes que caracterizado pelo preconceito.
para os diferentes subgrupos?
constroem a tecnologia devem Podemos seguir alguns passos
Se não tivermos um conjunto
ser representadas por pessoas em direção às soluções, mas o
de dados representativos, talvez
que serão afetadas por ela, o preconceito pode se infiltrar em
não percebamos que nosso al-
que cada vez mais é de todos. muitos lugares. Não há uma lis-
goritmo está tendo um desem-
ta de verificação que assegure
penho ruim em algum subgru-
Pesquisas mostram que equipes que o preconceito esteja em
po. O tamanho das amostras são
diferentes têm um desempenho jogo e não tenhamos mais com
grandes o suficiente para todos
melhor e acreditam que somos o que nos preocupar. É algo que
os subgrupos em seu conjunto
meritocráticos, pode realmente sempre temos que continuar
de dados? É importante verificar
aumentar o preconceito. Leva procurando.
isso, assim como o Pro Publica
um tempo e esforço para fazer
fez com o algoritmo de rein-
entrevistas de forma consistente.
cidência que analisou a corrida;
Uma boa referência para isso é o
post do blog intitulado “Fazendo

28
pontos principais
• A sociedade deve exigir transparência
PODEMOS CONFIAR EM
e responsabilidade legal e financeira
para o uso de algoritmos na tomada
de decisão automatizada. Caso
contrário, nem o público e nem uma
ALGORITMOS PARA TOMADA
agência reguladora serão capazes
de entender ou regular algoritmos
complexos e as interconexões
complexas entre as redes de dados
DE DECISÃO AUTOMÁTICA?
que esses algoritmos utilizam;
• Não há consenso sobre como definir, por Michael Stiefel
evitar ou mesmo tornar explícito o
viés — distorção do julgamento — nos
algoritmos usados na execução de
políticas públicas ou em pesquisas Os algoritmos subjacentes a esses
científicas;
sistemas podem produzir resultados
• A natureza perfeita e conveniente
de muitas tecnologias, como incompreensíveis ou socialmente
residências personalizadas, dificulta a
compreensão de onde os dados vêm,
indesejáveis. Como os reguladores podem
como são usados por algoritmos e determinar a segurança ou a eficácia dos
para onde vão;
algoritmos incorporados em dispositivos ou
• Empresas e indivíduos, especialmente
quando trabalham no setor público, máquinas, se não puderem compreendê-
devem assumir que os resultados das
decisões dos algoritmos terão que
los? Como os cientistas podem entender
ser explicados às pessoas que são um relacionamento baseado em uma
adversamente afetadas por elas em
tempo hábil, para que possam apelar descoberta realizada por meio de um
ou contestar essas decisões algoritmo?

29
INTEGRANTES DESSE PAINEL

Michael Veale Andrew Burt Rebecca Williams


é doutor e pesquisador em é chief privacy officer e engenheiro é professora de direito público
aprendizado de máquina e o jurídico da Immuta, uma das principais e direito penal na Universidade
responsável do setor público plataformas de ciência de dados e de de Oxford. Seu trabalho inclui
na University College London, gerenciamento de dados do mundo. Ele o exame de métodos ótimos
especializada na justiça e também é membro visitante do Projeto de tomada de decisão e o uso
responsabilidade de ferramentas Sociedade da Informação da Yale Law do direito penal como forma
baseadas em dados no setor School. Anteriormente, Burt foi consultor de regulamentação. Cada vez
público, bem como na interação especial de política para o chefe da mais seu trabalho também
Divisão de Cyber do FBI, onde atuou
entre tecnologias avançadas e se concentra na relação entre
como principal autor do relatório do
lei de proteção de dados. Sua lei e tecnologia e as maneiras
FBI sobre o ataque de 2014 à Sony. Burt
pesquisa foi citada por órgãos pelas quais a lei precisará se
publicou artigos sobre tecnologia, história
e reguladores internacionais, e direito no New York Times, no Financial desenvolver para acompanhar
na mídia, bem como debatida Times, no Los Angeles Times, Slate e no o desenvolvimento
no Parlamento. Ele atuou como Yale Journal of International Affairs, entre tecnológico.
consultor em aprendizado de outros. Seu livro American Hysteria: The
máquina e sociedade para o Untold Story of Mass Political Extremism,
Banco Mundial, Royal Society nos Estados Unidos, foi chamado de
e British Academy, e trabalhou “um livro de leitura obrigatória sobre um
anteriormente em IoT, saúde e assunto que poucos querem abordar”,
envelhecimento na Comissão do Prêmio Nobel emérito Desmond
Européia. Veale pode ser Tutu, Arcebispo Nobel. Burt é doutor em
encontrado no twiter em direito pela Yale Law School e é bacharel
@mikarv. pela McGill University. Ele é membro do
Conselho de Relações Exteriores, membro
do Conselho de Washington, DC e da
Virginia State Bars, além de coordenador
de resposta a incidentes cibernéticos
GIAC (Global Information Assurance
Certified).

Exemplos de tais áreas são: de- nenhuma linha de código nesses 2. Andrew Burt - chief privacy
terminar quem é libertado sob algoritmos que os instrua a fazer officer e engenheiro jurídico na
fiança ou quem deverá receber algo ruim a alguém. Immuta
crédito financeiro, prever onde
ocorrerá um crime, averiguar vio- O que podemos fazer para re- 3. Michael Veale - integrante da
lações das leis anti-discriminação solver este problema? University College London. De-
ou julgar a culpa em um acidente partamento de Ciência, Tecnolo-
Integrantes deste painel: gia, Engenharia e Política Pública
com um carro autônomo.
1. Rebecca Williams - professora InfoQ: As pessoas geralmente
Não está claro se os algoritmos de direito público e direito penal,
podem detectar suas próprias desconhecem o papel dos al-
em associação com o Pembroke goritmos na sociedade. Qual
falhas mais do que um ser huma- College na Universidade de
no pode determinar se são real- é a melhor maneira de educar
Oxford as pessoas sobre os benefícios
mente doentes mentais. Não há

30
A maioria das e problemas associados ao
crescente uso difundido de
sciência de quando e como esses
sistemas estão sendo usados.
algoritmos?
evidências úteis é Andrew Burt: O que mais
Em termos de educação,
obviamente, quanto mais cedo
precisamos é de história e con- começarmos com essas questões,
causal na natureza. texto sobre como este tipo de
tecnologia foi usado antes, e so-
melhor. As escolas ensinam cada
vez mais a codificação aos alunos,
Queremos saber bre o que é diferente agora, es-
pecialmente quando se trata do
bem como questões éticas como
cidadania ou educação pessoal

o que causa o quê


que é comumente chamado de e social, portanto, quanto mais
“IA”. Temos, por um lado, pessoas puder ser feito para aumentar a
como Elon Musk, declarando que conscientização e discussão ness-
e como o mundo a IA é uma ameaça existencial à
vida na Terra, que está tendo um
es contextos, as futuras gerações
estarão mais bem preparadas

funciona. Algoritmos impacto real na maneira como o


público pensa sobre a IA. E temos,
quando projetarem, operarem e
interagirem com esses sistemas.
por outro lado, alguns defensores Isto é definitivamente algo que
de aprendizado de obstinados da IA, sugerindo que
isso resolverá todos os problemas
as universidades também podem
ajudar a facilitar. Já existem con-

máquina não são tão que temos. A verdade está, natu-


ralmente, em nenhum extremo.
textos em que acadêmicos visitam
escolas para apoiar o aprendizado
Além disso, nem todo desafio que e seria ótimo se isso pudesse acon-
bons nisso, e seus a AI coloca é novo. Já desenvolve-
mos ferramentas e práticas para
tecer também nesse assunto.

resultados e poder enfrentar alguns desses desafios Isso deixa claro a questão de como
em outras áreas. Então, acho que podemos alcançar aqueles que
todos se beneficiam de uma dis- passaram pela educação escolar
preditivo podem ser cussão mais ampla que coloque
os desafios da IA em perspectiva e
antes que surgissem esses tipos
de preocupações. Os mesmos de-

bastante frágeis como nos permita construir os sucessos


do passado e corrigir os erros de
safios surgem aqui como surgem
em relação à disseminação de
qualquer tipo de informação: as
resultado.
como adotamos as tecnologias
anteriores. Há muitas coisas boas pessoas tendem a confiar em cer-
que podemos fazer se acertarmos. tas fontes ao invés de outras, dan-
Por outro lado, há muitos pre- do origem ao risco de câmaras de
juízos que podem ocorrer se nos eco e desinformação. Haverá cer-
enganarmos - prejuízos discrimi- tamente um papel para a grande
natórios, oportunidades perdidas mídia aqui e balanceamento, cien-
e muito mais. As apostas são altas. tificamente baseado em relatórios
por esses meios será vital, como
Rebecca Willians: Os Artigos sempre, mas quanto menos confi-
13(2)(f), 14(2)(g) e 15(1)(h) do ança o público colocar em tais fon-
GDPR declaram que os titulares tes de informação, menos eficaz
de dados têm “o direito de saber a será. Haverá certamente um papel
existência de tomadas de decisão para instituições como o Gabi-
automatizadas, incluindo perfis”. nete do Comissário de Informação
Então, qualquer que seja a razão para fornecer aconselhamento e
pela qual eles tenham acesso a informação para os cidadãos por
informações sobre o processo, no meio do seu website, e novamente
mínimo as pessoas terão que ser como um acadêmico gostaria de
avisadas quando uma decisão ver as Universidades ajudando
específica sobre elas ou a respeito também neste contexto, apoiando
delas estiver sendo tomada usan- estes outros pontos de venda ou
do um processo automatizado. A por meio de engajamento público
esperança é que isso eleve a con- direto.

31
Michael Veale: No design de fluxo de dados, decisões automa- aplica ao uso de algoritmos em
tecnologia, vem ocorrendo uma tizadas e outros comportamentos instituições financeiras nos EUA.
grande tendência para tornar os estão acontecendo. Nesse caso, O pessoal do AI Now Institute
sistemas “perfeitos”. Em suma, isso os indivíduos devem ser capazes também avançou com o que
significa que as pessoas podem se de aprofundar ainda mais para eles chamam de avaliações do
concentrar no que desejam fazer, ver e aprender mais, se estiverem impacto de algoritmos, que
e não em como querem fazê-lo, o interessados: e então, sem dúvi- oferecem outra estrutura para esse
que geralmente é ótimo para os da, sentirão melhor o que está tipo de abordagem.
indivíduos ajudá-los a alcançar o acontecendo ao seu redor, mesmo
que desejam. As casas inteligen- quando as opções para perceber e Há muita coisa lá, francamente,
tes são um exemplo disso, embora detalhar não estão lá. e lançaremos um white paper re-
muitas sejam um pouco desajeit- sumindo brevemente algumas
adas demais para terem conquis- InfoQ: Algoritmos serão fre- dessas práticas recomendadas -
tado esse título. No entanto, com quentemente usados na ex- técnicas e processos - para ajudar
uma variedade de algoritmos de ecução de políticas públicas ou nossos clientes e os outros a ge-
sistemas de hoje, muita uniformi- em pesquisas científicas que renciar os riscos da implantação
dade significa que os indivíduos afetarão as políticas públicas. de modelos de aprendizado de
não têm a chance de questionar se Requisitos legais, julgamen- máquina na prática. Estamos tra-
esse sistema funciona da maneira tos de valor e parcialidade balhando duro para finalizar o
que eles querem. Sua casa inteli- são quase inevitáveis. Como white paper e estamos animados
gente pode ser personalizada, mas os valores sociais podem ser para lançá-lo nos próximos meses.
se não pode ver para onde e para explicitamente visíveis, e o
preconceito pode ser evita- Willians: Existem várias ma-
quem está enviando os dados. Seu neiras diferentes de abordar
feed de notícias do Facebook pode do na programação do algo-
ritmo e na interpretação dos essa questão. Primeiro, é vital
parecer atraente, mas se sabe examinar cuidadosamente os da-
quem está sendo excluído e por resultados?
dos usados para treinar e operar
quê. Burt: Do lado da tecnologia, sistemas automatizados de tom-
Poderíamos realizar cursos sobre existem todos os tipos de ferra- ada de decisão. Se os dados em si
algoritmos na sociedade, mas é mentas importantes que estão forem tendenciosos, o resultado
improvável que isso resolva prob- sendo desenvolvidas para aju- também será. Vem ocorrendo mui-
lemas mais profundos. As tecno- dar a minimizar muitas dessas ta discussão sobre os sistemas de
logias se movem rapidamente. desvantagens. Uma ferramenta previsão de risco usados no contex-
Minha prima me contou outro dia, chamada LIME, que ajuda a ex- to da justiça criminal em vários es-
que na escola eles estavam apren- plicar os chamados algoritmos de tados dos EUA e a dificuldade com
dendo sobre segurança ciber- caixa preta, é um ótimo exemplo. esses sistemas é que eles tendem
nética. “Eles nos disseram para Um cientista de dados chamado a superestimar a reincidência de
não clicar em pop-ups”, disse ela. Patrick Hall realmente merece um réus negros ao mesmo tempo que
“Mas como vou saber como é um elogio por fazer um ótimo tra- a subestimam para réus brancos.
pop-up?”. Os navegadores muda- balho sobre interpretabilidade no Mas, apenas para dar um exemp-
ram muito rapidamente para blo- aprendizado de máquina. E há lo, um potencial preditor de risco
queá-los e, em dispositivos móveis, muitos outros exemplos para ci- usado pode ser a prisão antecipa-
simplesmente não é mais o para- tar. Nossas equipes de engenharia da por ofensas de posse menores. E
digma. Assim, uma educação úni- jurídica e ciência de dados estão se ainda assim tais ofensas são mais
ca, a menos que esteja desenvol- mantendo no topo de todos esses prováveis de serem detectadas
vendo habilidades críticas gerais, desenvolvimentos na Immuta. por stop e search, e as táticas de
geralmente é um pouco demais stop e search tendem a se inclinar
Mas acho que muitas vezes é na mesma direção: predizer uma
para um alvo em movimento. esquecido o lado processual. razão para parar e procurar pes-
Assim, consequentemente, precis- Os processos usados para soas negras enquanto prevê a ne-
amos mesclar a educação nos pro- desenvolver e implantar Machine cessidade de parar e procurar pes-
dutos e serviços que usamos todos Learning (ML) são incrivelmente soas brancas. Então, como parar
os dias. Esses serviços devem se ex- importantes, e modelar estruturas e pesquisar é distorcido contra os
plicar, não necessariamente com de gerenciamento de risco como o negros em favor dos brancos, mais
uma passagem de texto ou man- SR 11-7 do Federal Reserve Board pessoas negras são consideradas
ual, mas em virtude de um design que há muito tempo já reconhecem portadoras do que brancas e, as-
inteligente que deixa claro quando esse fato. Esse regulamento se sim, os negros são calculados a ter

32
um risco maior de reincidência do mas, sejam sujeitos a auditorias visão, mas compreensão. Estamos
que os brancos. A discriminação regulares para assegurar que eles em grande perigo de treinar uma
inicial na coleta de dados, alimen- não estejam espontaneamente geração de pessoas que podem
ta todo o sistema na saída. Portan- gerando formas de discriminação fazer o primeiro, mas não o segun-
to, se acharmos que nossos dados que não havíamos previsto. Será do. Quando construímos modelos
iniciais provavelmente produzirão necessário fazer isso mesmo se causais, temos uma oportunidade
esse tipo de efeito distorcido, de- não tivermos certeza do motivo maior de discutir se é assim que
vemos pensar cuidadosamente pelo qual isso está acontecendo, queremos que o mundo funcione
sobre se é ou não apropriado usá- mas, em quarto lugar, também é e se comporte. Talvez seja, talvez
lo, e talvez precisemos pensar em vital que façamos tudo o que pu- não seja: mas é uma conversa que
impor direitos para coletar dados dermos para tornar os algoritmos é mais visível e muito mais fácil de
de contrapeso. transparentes e responsáveis, de ter e de comunicar.
modo que, se uma auditoria deste
Em segundo lugar, há importantes tipo detectar um problema, po- InfoQ: Em maio deste ano,
escolhas políticas a serem feitas demos ver onde e como aconte- o Regulamento Geral de
no processo de codificação do ceu. Há um número de pessoas tra- Proteção de Dados da União
sistema. O trabalho de Krishna balhando nisso e um grupo nosso Europeia (GDPR) entra em
Gummadi mostrou que nem sem- em Aberdeen (Prof. Pete Edwards), vigor. Entre suas disposições,
pre é possível ter um bolo e comê- Oxford e Cambridge (Dr. Jat Singh) está o Artigo 22, que trata da
lo. Normalmente, será necessário acabam de receber uma doação tomada de decisão individu-
escolher entre diferentes medidas do EPSRC para trabalhar mais nes- al automatizada. Muitas pes-
de precisão. Assim, por exemplo, sa questão. soas argumentam que essa
um sistema que tem o método regra exige não apenas que
mais preciso de predição no agre- Em termos das fontes de regulação os direitos de privacidade dos
gado, considerado em todos os para cada uma dessas quatro dados sejam respeitados, mas
casos, também pode ter o maior questões, os sistemas serão usados que as decisões tomadas pelos
problema de produzir resultados por entidades públicas e privadas. algoritmos sejam explicáveis.
distorcidos em relação a catego- Onde eles são operados por enti-
rias específicas de casos, como dades públicas ou governamen- O que acha dessa interpre-
as mencionadas anteriormente. tais, acho que há definitivamente tação do regulamento? Este
Ou, inversamente, um sistema um papel para o direito público regulamento exige que os da-
que tenha precisão máxima em existente de desempenhar na re- dos sejam removidos do uso
relação a qualquer categoria es- sponsabilização de tais entidades por algoritmos? Se sim, isso
pecífica (como status étnico ou e impor mais deveres de transpar- poderia reduzir a eficácia do
gênero) pode não ter um grau tão ência, justiça, etc., que já são iner- algoritmo? Em geral, a aborda-
alto de precisão em todas as cate- entes ao direito público. Para as gem da União Europeia é váli-
gorias em conjunto. É vital que tais entidades privadas, o desafio será da, ou a “lei das consequências
escolhas políticas entre sistemas pensar quais desses deveres de não intencionais” vai piorar a
diferentes sejam entendidas como transparência, responsabilidade e situação?
sendo apenas isso; são escolhas justiça devem ser levados para o Burt: Há um enorme debate em
de políticas que devem ser feitas setor privado, como o preço pelo andamento na comunidade jurídi-
de forma aberta e transparente aumento de poder oferecido por ca sobre como, exatamente, o
e por uma entidade que pode ser tais sistemas. GDPR afetará a implantação do
responsabilizada por fazê-las, não aprendizado de máquina. E dado
inconscientemente, por codifica- Veale: A maioria das evidên-
cias úteis é causal na natureza. que o GDPR só entrou em vigor
dores anônimos. em Maio de 2018, ainda há muita
Queremos saber o que causa o
Terceiro, mesmo que estejamos quê e como o mundo funciona. coisa no ar. Mas a minha opinião é
confiantes de que fizemos tudo Algoritmos de aprendizado de que o Artigo 22 precisa ser lido ao
o que podemos, ex ante (antes máquina não são tão bons nisso, lado dos Artigos 13-15, que afir-
de um evento ocorrer — termo e seus resultados e poder preditivo mam que os titulares de dados têm
jurídico) para coletar dados bal- podem ser bastante frágeis como o direito de “informações signifi-
anceados e fazer escolhas de resultado. A principal maneira de cativas sobre a lógica envolvida”
códigos responsáveis, também tornar os valores sociais explici- em casos de tomada de decisão
será necessário um ex post (após tamente visíveis é desacelerar e automatizada. Na prática, acho
o evento ocorrer — termo jurídi- reconhecer que nossos objetivos que isso significará que os titulares
co) para assegurar, que tais siste- muitas vezes não são apenas pre- de dados terão o direito de ser in-

33
struídos sobre quando, por que envolver apenas uma explicação prática vemos consequências não
e o mais importante, como algo ex ante, como sugerem Wachter, intencionais, há uma oportuni-
como um modelo de aprendizado Mittelstadt e Floridi, mas também dade de pegá-las e resolvê-las.
de máquina está usando seus da- pode incluir explicações ex post.
dos. Como acontece com qualquer Em relação às entidades privadas, Veale: O Artigo 22 no GDPR é
análise legal, há uma tonelada de a situação é mais difícil, uma vez uma disposição realmente an-
nuances aqui. Por isso, incentivo os que estão geralmente sujeitas a tiga. Ela remonta à lei france-
leitores a verificarem um artigo an- menos deveres, embora a nossa lei sa de 1978, e boa parte dela
terior que coloquei sobre o assunto existente sobre discriminação faça permanece inalterada em relação
para a Associação Internacional algum trabalho e haja também a ao artigo 15 da Diretiva de
de Profissionais de Privacidade. possibilidade de deveres de estilo Proteção de Dados em 1995 (Lei de
Também vale a pena mencionar público serem associados ao uso Proteção de Dados do Reino Unido
que um grupo chamado Working de tais sistemas, mesmo em um de 1998). No entanto, não tem sido
Group 29, que tem uma enorme in- contexto privado. muito utilizado, e alguns acadêmi-
fluência sobre como as leis de pri- cos o chamaram de “direito de se-
vacidade da UE são aplicadas, saiu O Art 17 permite o direito de apa- gunda classe” como resultado.
com suas próprias orientações so- gar dados pessoais, mas não onde
o processamento é necessário O propósito fundamental do Ar-
bre este assunto, afirmando cate- tigo 22 é garantir que, se uma or-
goricamente que a tomada de de- para cumprir uma obrigação le-
gal. A principal distinção aqui é ganização quiser tomar uma de-
cisão automatizada é proibida por cisão totalmente automatizada e
GDPR, com certas isenções. entre dados individuais e gerais.
Para a remoção de dados indi- potencialmente significativa sobre
Willians: Já sabemos que há um viduais, há alguns direitos limit- alguém, ela precisa ter uma base
intenso debate entre Goodman ados, como do Art 17, mas para legal para fazê-lo (consentimento
e Flaxman, que argumentam qualquer dever ou obrigação de livre, necessidade de executar um
que o GDPR dá um “direito à ex- remover dados gerais (ou seja, contrato ou obrigação legal). Se a
plicação” completo, enquanto dados que afetam uma catego- organização não tiver um desses,
Wachter, Mittelstadt e Floridi, na ria inteira de pessoas, como os eles não poderão tomar a decisão.
minha opinião, de forma mais dados descritos anteriormente), Se garantirem um, eles têm que
plausível, argumentam que isso pode ser necessário olhar para as colocar salvaguardas em prática
será suficiente para dados sujeitos disposições mais gerais no regu- para garantir que a decisão seja
a um componente de aprendiza- lamento, como “medidas adequa- tomada de forma justa, incluindo
do de máquina a ser informado das para salvaguardar os direitos permitir que um indivíduo desafie
da existência e quais medidas e liberdades e interesses legítimos a decisão. Não está claro em mui-
de precisão estão sendo usadas da pessoa em causa”, ou deveres tos casos como esse desafio fun-
para checá-lo. Concordo com eles gerais em, por direito público (onde cionará: muitas decisões impor-
que o assunto dos dados deve que processa dos dados é uma en- tantes são tomadas rapidamente.
ser informado mais do que ape- tidade público/governamental) ou Se um vídeo de um evento político,
nas quais pontos de dados es- lei que proíbe a discriminação. tópico, for automaticamente re-
tão sendo usados, mas também movido do Youtube, com que rapi-
como eles são ponderados nas Novamente, isso depende, se o dez ele poderá ser reativado? Se o
circunstâncias. Como mencionei que está sendo usado é dado tempo de relevância tiver passado,
anteriormente, em que o sistema individual ou geral. A remoção uma revisão humana é de pouca
está sendo operado por uma en- de dados gerais distorcidos pode utilidade.
tidade pública, acho que existe tornar o algoritmo mais preciso,
ao passo que a remoção de dados Outra destas salvaguardas,
um potencial significativo para para além do desafio humano, é
uma analogia a ser tirada com individuais precisos em relação
a tipos específicos de candidatos descrita no Recital 71 do GDPR.
nossa abordagem atual para as Os recitais, que começam uma lei
decisões do Procedimento de Ma- pode torná-lo mais impreciso e dar
origem ao efeito de distorção. européia, destinam-se a ilustrar
terial Fechado, no qual o impacto seu espírito e contexto, mas em leis
sobre o indivíduo é significativo, Não acho que alguém sabe a muito disputadas como o GDPR,
ele/ela tem o direito de saber, pelo resposta para isso com certeza tornaram-se, frustrantemente
menos, a ‘essência’ do processo neste momento! Acho que será para os advogados, um lugar para
contra ele/ela, de modo que ele/ necessário lembrar as auditorias colocar coisas que realmente de-
ela possa fazer uso ‘significativo’ ex post discutidas anteriormente veriam estar nos principais artigos
do direito de resposta. Isso pode neste painel, de modo que, se na obrigatórios. Esta salvaguarda da

34
explicação, ao contrário de outras, os conectamos estão se tornando algumas pessoas podem implan-
como o direito à intervenção hu- cada vez mais complexas. Todos tar e gerenciar enormes infraestru-
mana, foi colocada lá, e assim os dias, o mundo da TI fica mais turas de tomada de decisão, mas
veremos se e quando o Tribunal difícil de gerenciar, temos mais elas não trazem a capacidade hu-
de Justiça Europeu acha que é endpoints, mais dados, mais ban- mana de examiná-las e mantê-las.
obrigatório para os responsáveis cos de dados e mais tecnologias Isso cria um enorme desequilíbrio,
pelo tratamento de dados. de armazenamento do que nunca. particularmente para organi-
E assim acredito que nosso maior zações de baixa capacidade que
No entanto, não vamos esquecer o desafio está em entender os am- podem ser tentadas por confiar
significado real do Artigo 22, que bientes de dados, nos quais esta- na automação e no aprendizado
não é apenas sobre explicações. mos confiando. Porque, se não o de máquina. Nestes casos, a su-
Isso definitivamente restringe al- fizermos, existe uma possibilidade pervisão externa é necessária; mas
guns usos de algoritmos de siste- muito real de estarmos constan- quem fornece isso? Quem paga
mas que as pessoas acreditam temente a confrontar falhas silen- por isso? E como isso realmente se
que são injustos. Contratação ciosas, em que algo correu mal e encaixa em alguns desafios ocul-
automatizada e filtragem de Cur- que simplesmente não sabemos, tos que a tomada de decisões al-
riculum, por exemplo, são técnicas com consequências muito reais, e gorítmicas pode causar, desafios
que são altamente suspeitas nos potencialmente devastadoras. que são frequentemente enterra-
termos do Artigo 22. Quando se dos nas organizações e em suas
está decidindo entrevistar alguém Willians: Acho que a maioria das políticas de trabalho?
automaticamente, usando um dos pessoas iria encapsular isso na pa-
produtos analíticos no mercado lavra “justiça”. Mas isso realmente
hoje, estamos provavelmente to- se resume em transparência e
Conclusão
mando uma decisão apenas au- responsabilidade: (1) precisamos
tomatizada e significativa. Qual saber o máximo possível sobre o Deixar de levar em consideração
é a sua base legal? Não há um que esses sistemas estão fazendo, o que o público teme ou a in-
contrato e, provavelmente, não como e por quê. (2) É necessário capacidade de prever conse-
tem uma obrigação legal, o que haver uma entidade apropria- quências adversas impediu
permite o consentimento. O ato da para responsabilizar-se por tecnologias como energia nu-
de consentir algo automático em eles e um sistema apropriado e clear e culturas geneticamente
qualquer contexto de emprego é acessível para responsabilizar essa modificadas.
altamente problemático devido entidade.
aos desequilíbrios de poder, e rara- A cidade de Nova York está es-
mente pode ser visto como dado Nossas estruturas legais e regula- tabelecendo uma força-tarefa
livremente. Pessoalmente, penso doras precisam fornecer e incenti- para propor recomendações
que o Artigo 22 torna muitas práti- var essas duas coisas, trabalhan- para explicações e mitigações
cas automáticas de contratação do em estreita colaboração com para as pessoas afetadas pelo
em larga escala muito legalmente os cientistas da computação que uso de algoritmos pelas agências
suspeitas. geram os sistemas. da cidade. O Regulamento Geral
de Proteção de Dados da União
InfoQ: Qual é a questão crítica Veale: O maior problema aqui
Européia é outra tentativa de
que as sociedades enfrentam é que os algoritmos exigem ma-
começar a lidar com a questão.
com o uso generalizado de al- nutenção e supervisão, o que pode
goritmos em vez de humanos ser difícil de fazer em pequena es-
Carl Jung tem a fama de ter dito
para tomar decisões críticas? cala. Eles teoricamente permitem
que dentro de cada ser humano
um enorme volume e velocidade
esconde-se um lunático. Se os
Burt: Em duas palavras: falhas si- de decisões automatizadas, muito
algoritmos modelam o compor-
lenciosas. À medida que começa- mais do que um ser humano pode
tamento humano, o que isso sig-
mos a nos basear mais em algo- fazer. Pequenas organizações
nifica para a sociedade?
ritmos complexos, especialmente podem realmente se beneficiar
em várias formas de redes neurais, disso. Anteriormente, se as orga-
nossa capacidade de explicar seu nizações queriam que muitas de-
funcionamento interno se tornará cisões acontecessem, precisavam
progressivamente mais difícil. Isso de muita gente. Essas pessoas
não é simplesmente porque esses poderiam fornecer supervisão e
modelos são difíceis de interpre- feedback, mesmo que trouxessem
tar, mas porque as redes às quais seus próprios preconceitos. Agora,

35
Nossas estruturas legais
e reguladoras precisam
fornecer e incentivar
a transparência e
responsabilidade
trabalhando em estreita
colaboração com os
cientistas da computação
que geram os sistemas.

36
Edição anterior:

37