Você está na página 1de 864

Fundamentos de Ciência de Dados

Implantação e Monitoramento

Thiago Russo
Thiago.russo@gmail.com
Validação e Implantação de Modelos
Case 1 – Modelagem de Concessão de
Crédito
Thiago Russo
Thiago.russo@gmail.com
O Novo: A Trindade
Dados, Descoberta, Implantação
Crie Análises que sejam fáceis
de consumir e disseminar
Como Saber se o Modelo Funcionou?

• Relatórios
• Safras
• Outros modelos
Alteração de Modelo de Negócio

• Como entregar o resultado dos modelos

• Escoragem Batch
• Escoragem Online
• Geofencing
• Beacons

• Foco na Experiência do Usuário


Principais Tendências em Concessão
de Crédito

• Cálculo de métricas comportamentais


derivadas
• Ciclo Analítico Mais Curto
– Maior proximidade do universo transacional
– Menor esforço operacional
• Maior Velocidade na Escoragem
– Maior Frequência
– Escoragem de Tempo Real
• Maior segmentação de público e aumento do
número de modelos
• Escoragem de crédito a cada transação
• Modelos mais precisos com as mesmas
técnicas analíticas (machine learning e deep
learning)
Estudo de Caso

• “All data is credit data…”

• Atua com crédito no segmento de baixa renda


com valor médio de USD 600 e apresenta uma
taxa de inadimplência 40% menor que a média de
mercado

• Além de variáveis tradicionais utiliza dados de


navegação na internet. Ex.: Tempo de leitura do
contrato de empréstimo, numero de páginas do
banco visitadas, formato do preenchimento do
formulário, etc
Gestão de Portfólio
Planejamento Estratégico

• O que acontece se diminuirmos o spread em


0,3% para ganhar mercado?

• Qual é impacto desta política de crédito em nossa


receita ou exposição em risco?

• O que acontece se o BACEN aumentar o juros


em 0,5% ao invés de 0,25% na próxima reunião
do Copom?

• Como simular e prever estas situações?


Arquitetura de sistemas e dados

ANOS 80 / 90
Arquitetura de sistemas e dados

Até Recentemente
Arquitetura de sistemas e dados

Atualmente
Tecnologias de Alta Performance

• Grid / Processamento Paralelizado

• In-Database e Hadoop - TERADATA, EMC,


HADOOP, ORACLE, etc

• In-Memory e Visualização – SAS LASER,


HADOOP, TERADATA, HANA, etc
Tecnologias de Alta Performance
GRID

Único Servidor para a Empresa Servidores Departamentais


Tecnologias de Alta Performance
GRID

• Confiabilidade
• Priorização de Processamento
Gerenciador • Distribuição de Processamento
Grid


• Processos Críticos na Baixa
Plataforma
• Utilização da Mesma Estrutura
para Laboratório e Processos
Produtivos
Tecnologias de Alta Performance
In-Database e Hadoop

Custo de Storage e
Memória nos EUA

• Em 2000 um GB de Disco custava $17


Hoje é menos de $0.07
• EM 2000 um GB de Memória Ram
custava $1800. Hoje é menos de $1
• Em 2009 um TB de RDBMS custava
$70K. Hoje é menos de $ 20K
Tecnologias de Alta Performance
In-Database e Hadoop

“Software Open Source que permite o processamento


distribuído de grandes volumes de dados por
agrupamentos de servidores commodities”
Não é banco de dados, é um file system com
processamento paralelo

HDFS – Armazena petabytes de dados com confiança


• Simples – Vários discos ~ Sem RAID
• Confiável e Redundante ~ SW espera falha do servidor
(Não há perda de dados)
Map Reduce – Permite o processamento distribuído
• Simples e escalável. Não aplicável a todas necessidades
Tecnologias de Alta Performance
In-Database e Hadoop

Econômico e Eficiente - distribui


os dados e o processamentos
através dos nós
Tecnologias de Alta Performance
In-Database e Hadoop

Confiável – remaneja as cópias


em caso de falhas no sistema

Alta disponibilidade e tolerância


a falhas independe de hardware

Down!
Tecnologias de Alta Performance
In-Database e Hadoop

Escalabilidade ilimitada

O armazenamento e
processamento são
redistribuídos dinamicamente
Tecnologias de Alta Performance
In-Database e Hadoop

Mapear (map)

Gerar key(chave),
value(valores)

Reduzir (reduce)

Associar valores com


mesma chave, valor
Dinâmica

• Processamento Massivo em Paralelo com MMs

– Processamento de tarefa paralelizável


• Contagem
• Sumarização

– Processamento de tarefa não paralelizável


• Ordenação
Tecnologias de Alta Performance
In-Memory e Visualização
Tecnologias de Alta Performance
In-Memory e Visualização
Tecnologias de Alta Performance
In-Memory e Visualização
Analytics – Abordagem Tradicional

Sistemas Data
transacionais Warehouse / Marts

OLTP OLAP

Transações
Análises e insights
de negócios
Ações de negócios

Armazenamento em Agregações Estruturas de dados pré-


tempo real em determinadas, de baixa
Transferência
estruturas batch para flexibilidade
transacionais de
estruturas Longos tempos de resposta,
dados analíticas de dados ruim para data discovery
Complexo para
obter relatórios Perda de detalhes
Grandes volumes Processamento demorado -
Alto impacto Espera para obtenção de
relatórios
Analytics Moderno – Em Tempo Real

Dados em memória

SAP

In-Memory
Computing

Não há agregação / Não há Data Staging / Não há Data Marts


Transações
Análises e insights
de negócios
Ações de negócios

Carga em memória Alta performance em Rápido, flexível e sem perda


em tempo real grandes volumes de granularidade de detalhes
Exemplo de Arquitetura
Big Data – Exemplos Reais

• Novos modelos de negócio – coletivamente, geram


economia mais forte

• O dado em si tem valor, companhias tem comercializado e


trocado dados entre elas, gerando maior conhecimento do
negócio, melhores soluções e maior conhecimento dos
clientes

A GE analisa em tempo as pás de todos os seus motores e turbinas,


possibilitando menor custo energético e planejamento preciso e preditivo
dos caros processos de manutenção das turbinas
Big Data – Exemplos Reais

• Análise das equipes de saúde, pacientes e necessidades do público


possibilitam o desenvolvimento de métodos e políticas que atendam
com maior eficiência e eficácia os cidadãos

• Big Data Genetics é um campo em desenvolvimento que possibilitará


tratamentos específicos para os pacientes - medicina personalizada,
conforme seus perfis e antecipação de doenças. O mapa genético fará
parte dos prontuários dos pacientes

Salvando vidas com Big Data


Analytics para prever as
condições e dos pacientes
Big Data – Exemplos Reais

• Cidades Inteligentes
– Qual a quantidade ideal de lixeiras para diminuir a
sujeira nas cidades?
– Como melhorar o tráfego?
– Como empregar melhor a presença policial?
Big Data – Exemplos Reais

• Alimentos
– O emprego de soluções IoT combinadas com Big Data
tem aumentado a quantidade e qualidade de alimentos,
bem como diminuído custos. Projetos inovadores
proporcionam safras com menor consumo de
agrotóxicos, menor uso de nutrientes não naturais

Análise de sensores geológicos


e imagens das plantações estão
impactando a produção de
alimento
Informações Implícitas

• Informações que podem ser obtidas pela


ausência de um determinado dado ou informação

• Muito cuidado com isso este método

• Assim que possível encontrar um dado ou


processo que valide suas premissas e insights
Estudo de Caso

• Que insights podem ser extraídos por uma


solicitação de informação de faixa de renda
Análise de Casos de Alunos

• Como implantar o seu modelo?

• Qual arquitetura seria necessária?

• Qual tecnologia seria necessária?


Perfis Organizacionais de Maturidade em
Ciência de Dados
Case 2 – Segmentação / Clusterização

Thiago Russo
Thiago.russo@gmail.com
Como Verificar se o Modelo de
Segmentação está Funcionando

• Análise de estabilidade de população

• Mudanças temporais

• Mudanças de perfil demográfico


Validação e Avaliação de Modelos

• Matriz de Confusão

• Indicadores estatísticos de qualidade de ajuste


Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Análise da regulamentação vigente

– Marco Civil da Internet


• De acordo com a lei, especificamente com o
Marco Civil da Internet, os brasileiros têm os
direitos de inviolabilidade da intimidade e da
vida privada

– GDPR – General Data Protection Regulation


(EU)
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Cliente VS Boa Vista Serviços AS

• Processo por Dano Moral 2013/0386285 com Recurso


Especial 1.419.697-RS pela BOA VISTA. 11/2014

• É legal a utilização de ratings de crédito


• Os dados utilizados no rating devem ser disponibilizados
para o consumidor
• Bureaus e provedores de dados estão sujeito a processos caso
sejam utilizados dados desatualizados ou equivocados
• Também são vetados o uso de informações excessivas ou
sensíveis que violem a sua honra e privacidade
Estudo de Caso

• Atua no crédito para empresas do varejo com


valores médios de USD 5000

• Monitora tendências no Facebook e Yelp para


dar crédito para empresas

• Consulta histórico de relacionamento com


PayPal, Amazon, SW de Imposto de Renda,
Yahoo, Ebay entre outros
Estudo de Caso

• Grindr – Site de relacionamentos GLBT

• Compartilhou informações sobre


– Preferência sexuais
– Status de HIV

• Com empresas parceiras para desenvolver


ofertas de produtos e serviços personalizados
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Case do Facebook e Cambridge Analytica

• O que aconteceu?

• Como aconteceu?
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Dificuldades de rastreamento e punição

• Falta de legislação e alinhamento internacional


sobre o tema

• Facilidade de migração de país para fugir das


regulamentações
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Onde está o dado que armazeno?

• Estou sujeito a quais jurisprudências e


regulamentações?
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Como melhorar a regulamentação?

• A legislação não está acompanhando a


velocidade da evolução tecnológica
Análise de Casos de Alunos

• Onde você iria capturar informações?

• Onde você iria armazenar as informações?

• Onde você iria processar as informações?


Integração de Ciência de Dados e Modelos
de Negócio
Case 3 – Modelos de Detecção de Fraude

Thiago Russo
Thiago.russo@gmail.com
Como Verificar se o Modelo de
Detecção de Fraude está Funcionando

• Detecção de Fraude é um jogo de gato e rato

• O fraudador não gasta mais esforço do que o


necessário
– Economicamente não faz sentido
– Se não está sendo pego, para quê sofisticar

• Migração de região ou indústria


Estudo de Caso

• Detecção de fraude em um ambiente com poucas


fraudes

• Detecção e rastreamento de fraude de cartões de


crédito no Japão
– Análise de redes sociais
Estudo de Caso

• Engenharia social

• O comportamento humano é um aliado na


detecção de fraude
– Preguiça
– Lei do menor esforço

• Exemplo do político pego na Lava Jato


– Depósitos fracionados
Estudo de Caso

• Engenharia social

• Análise de redes de relacionamento


– Dados temporais
– Dados georeferenciados
– Integração de diversas fontes de dados

• Caso da Lava Jato para provar onde há conluio e


combinação de resultados
Integração de Ciência de Dados e
Processos de Negócio

• Novos modelos de negócio

– Onde o Netflix é melhor que a locadora


tradicional

– Onde o Uber é melhor que o serviço de taxi

– Onde a Amazon é melhor que os outros


varejistas
Integração de Ciência de Dados e
Processos de Negócio

• Integração e encadeamento de modelos

• Foco na Experiência do Usuário


Estudo de Caso

• Aplicativo para monitoramento de saúde e


qualidade do sono

• Foco na coleta de informações

• Melhor forma de entregar os resultados


Estudo de Caso

• Aplicativo para monitoramento de saúde e


qualidade do sono
Otimização de Modelo de Negócio

• Como entregar o resultado dos modelos

• Escoragem Batch
• Escoragem Online
• Geofencing
• Beacons

• Foco na Experiência do Usuário


Automação de Processos de Negócio

• O quê automatizar?
– Processos repetitivos
– Processos com pouco valor agregado
– Processos propensos a falhas operacionais
– Processos que unitariamente consomem pouco
tempo, mas que pelo volume tem impacto
relevante
Estudo de Caso

• Como é feita a detecção de buracos em rodovias


brasileiras?

• Um veículo faz a viagem filmando a rodovia

• Uma pessoa assiste ao video acelerado


marcando cada um dos buracos identificados
Serviços Analíticos

• Atualizar com os dados do Alê


Privacidade dos Dados

• Quais dados as empresas capturam?

• Quais dados o Google tem sobre você?

• Quais dados o Facebook tem sobre você?

• Quais dados os Bancos tem sobre você?

• Quais dados as Telecoms tem sobre você?

• Quais dados o governo tem sobre você?


Privacidade dos Dados

• Facebook
Estudo de Caso

• Modelo de Score do Cidadão na China


Análise de Casos de Alunos

• Seria possível fraudar o seu modelo?

• Como impedir ou mitigar essa possibilidade

• Seria possível automatizar totalmente o processo


que você pensou?

• Como melhorar a Experiência do Usuário com o


resultado do seu processo analítico?
Data Bobagem
Case 4 – Machine Learning – Vieses e Seus
Impactos
Thiago Russo
Thiago.russo@gmail.com
Como Verificar se o Modelo de Machine
Learning está Funcionando

• Análise de resultados

• Otimização de resultados

• Treinamento Continuado (Reinforced Learning)


Como Verificar se o Modelo de Machine
Learning está Funciondo

• Caso do Chatbot da Microsoft

• Atendimento de suporte de nível 1

• Treinamento continuado com feedback e textos


da internet

• Em 48 horas virou um troll racista e homofóbico


que precisou ser retirado do ar
Data Bobagem

• Exemplos nocivos de vieses na modelagem


Estudo de Caso

• Caso de Análise de Elegibilidade para Fiança


(Justiça)
Como Melhorar a Situação e Diminuir
os Vieses

• Leis para publicidade dos modelos públicos


utilizados

– Modelos
– Dados de Treinamento / Teste
Análise de Casos de Alunos

• Como verificar se seu caso tem algum viés

• Como diminuir o impacto do viés


Fundamentos de Ciência de Dados
Ciência de Dados pela Ótica de Negócio
Obrigado!
Thiago Russo
Thiago.russo@gmail.com
Fundamentos de Ciência de Dados
Implantação e Monitoramento

Thiago Russo
Thiago.russo@gmail.com
Validação e Implantação de Modelos
Case 1 – Modelagem de Concessão de
Crédito
Thiago Russo
Thiago.russo@gmail.com
O Novo: A Trindade
Dados, Descoberta, Implantação
Crie Análises que sejam fáceis
de consumir e disseminar
Como Saber se o Modelo Funcionou?

• Relatórios
• Safras
• Outros modelos
Alteração de Modelo de Negócio

• Como entregar o resultado dos modelos

• Escoragem Batch
• Escoragem Online
• Geofencing
• Beacons

• Foco na Experiência do Usuário


Principais Tendências em Concessão
de Crédito

• Cálculo de métricas comportamentais


derivadas
• Ciclo Analítico Mais Curto
– Maior proximidade do universo transacional
– Menor esforço operacional
• Maior Velocidade na Escoragem
– Maior Frequência
– Escoragem de Tempo Real
• Maior segmentação de público e aumento do
número de modelos
• Escoragem de crédito a cada transação
• Modelos mais precisos com as mesmas
técnicas analíticas (machine learning e deep
learning)
Estudo de Caso

• “All data is credit data…”

• Atua com crédito no segmento de baixa renda


com valor médio de USD 600 e apresenta uma
taxa de inadimplência 40% menor que a média de
mercado

• Além de variáveis tradicionais utiliza dados de


navegação na internet. Ex.: Tempo de leitura do
contrato de empréstimo, numero de páginas do
banco visitadas, formato do preenchimento do
formulário, etc
Gestão de Portfólio
Planejamento Estratégico

• O que acontece se diminuirmos o spread em


0,3% para ganhar mercado?

• Qual é impacto desta política de crédito em nossa


receita ou exposição em risco?

• O que acontece se o BACEN aumentar o juros


em 0,5% ao invés de 0,25% na próxima reunião
do Copom?

• Como simular e prever estas situações?


Arquitetura de sistemas e dados

ANOS 80 / 90
Arquitetura de sistemas e dados

Até Recentemente
Arquitetura de sistemas e dados

Atualmente
Tecnologias de Alta Performance

• Grid / Processamento Paralelizado

• In-Database e Hadoop - TERADATA, EMC,


HADOOP, ORACLE, etc

• In-Memory e Visualização – SAS LASER,


HADOOP, TERADATA, HANA, etc
Tecnologias de Alta Performance
GRID

Único Servidor para a Empresa Servidores Departamentais


Tecnologias de Alta Performance
GRID

• Confiabilidade
• Priorização de Processamento
Gerenciador • Distribuição de Processamento
Grid


• Processos Críticos na Baixa
Plataforma
• Utilização da Mesma Estrutura
para Laboratório e Processos
Produtivos
Tecnologias de Alta Performance
In-Database e Hadoop

Custo de Storage e
Memória nos EUA

• Em 2000 um GB de Disco custava $17


Hoje é menos de $0.07
• EM 2000 um GB de Memória Ram
custava $1800. Hoje é menos de $1
• Em 2009 um TB de RDBMS custava
$70K. Hoje é menos de $ 20K
Tecnologias de Alta Performance
In-Database e Hadoop

“Software Open Source que permite o processamento


distribuído de grandes volumes de dados por
agrupamentos de servidores commodities”
Não é banco de dados, é um file system com
processamento paralelo

HDFS – Armazena petabytes de dados com confiança


• Simples – Vários discos ~ Sem RAID
• Confiável e Redundante ~ SW espera falha do servidor
(Não há perda de dados)
Map Reduce – Permite o processamento distribuído
• Simples e escalável. Não aplicável a todas necessidades
Tecnologias de Alta Performance
In-Database e Hadoop

Econômico e Eficiente - distribui


os dados e o processamentos
através dos nós
Tecnologias de Alta Performance
In-Database e Hadoop

Confiável – remaneja as cópias


em caso de falhas no sistema

Alta disponibilidade e tolerância


a falhas independe de hardware

Down!
Tecnologias de Alta Performance
In-Database e Hadoop

Escalabilidade ilimitada

O armazenamento e
processamento são
redistribuídos dinamicamente
Tecnologias de Alta Performance
In-Database e Hadoop

Mapear (map)

Gerar key(chave),
value(valores)

Reduzir (reduce)

Associar valores com


mesma chave, valor
Dinâmica

• Processamento Massivo em Paralelo com MMs

– Processamento de tarefa paralelizável


• Contagem
• Sumarização

– Processamento de tarefa não paralelizável


• Ordenação
Tecnologias de Alta Performance
In-Memory e Visualização
Tecnologias de Alta Performance
In-Memory e Visualização
Tecnologias de Alta Performance
In-Memory e Visualização
Analytics – Abordagem Tradicional

Sistemas Data
transacionais Warehouse / Marts

OLTP OLAP

Transações
Análises e insights
de negócios
Ações de negócios

Armazenamento em Agregações Estruturas de dados pré-


tempo real em determinadas, de baixa
Transferência
estruturas batch para flexibilidade
transacionais de
estruturas Longos tempos de resposta,
dados analíticas de dados ruim para data discovery
Complexo para
obter relatórios Perda de detalhes
Grandes volumes Processamento demorado -
Alto impacto Espera para obtenção de
relatórios
Analytics Moderno – Em Tempo Real

Dados em memória

SAP

In-Memory
Computing

Não há agregação / Não há Data Staging / Não há Data Marts


Transações
Análises e insights
de negócios
Ações de negócios

Carga em memória Alta performance em Rápido, flexível e sem perda


em tempo real grandes volumes de granularidade de detalhes
Exemplo de Arquitetura
Big Data – Exemplos Reais

• Novos modelos de negócio – coletivamente, geram


economia mais forte

• O dado em si tem valor, companhias tem comercializado e


trocado dados entre elas, gerando maior conhecimento do
negócio, melhores soluções e maior conhecimento dos
clientes

A GE analisa em tempo as pás de todos os seus motores e turbinas,


possibilitando menor custo energético e planejamento preciso e preditivo
dos caros processos de manutenção das turbinas
Big Data – Exemplos Reais

• Análise das equipes de saúde, pacientes e necessidades do público


possibilitam o desenvolvimento de métodos e políticas que atendam
com maior eficiência e eficácia os cidadãos

• Big Data Genetics é um campo em desenvolvimento que possibilitará


tratamentos específicos para os pacientes - medicina personalizada,
conforme seus perfis e antecipação de doenças. O mapa genético fará
parte dos prontuários dos pacientes

Salvando vidas com Big Data


Analytics para prever as
condições e dos pacientes
Big Data – Exemplos Reais

• Cidades Inteligentes
– Qual a quantidade ideal de lixeiras para diminuir a
sujeira nas cidades?
– Como melhorar o tráfego?
– Como empregar melhor a presença policial?
Big Data – Exemplos Reais

• Alimentos
– O emprego de soluções IoT combinadas com Big Data
tem aumentado a quantidade e qualidade de alimentos,
bem como diminuído custos. Projetos inovadores
proporcionam safras com menor consumo de
agrotóxicos, menor uso de nutrientes não naturais

Análise de sensores geológicos


e imagens das plantações estão
impactando a produção de
alimento
Informações Implícitas

• Informações que podem ser obtidas pela


ausência de um determinado dado ou informação

• Muito cuidado com isso este método

• Assim que possível encontrar um dado ou


processo que valide suas premissas e insights
Estudo de Caso

• Que insights podem ser extraídos por uma


solicitação de informação de faixa de renda
Análise de Casos de Alunos

• Como implantar o seu modelo?

• Qual arquitetura seria necessária?

• Qual tecnologia seria necessária?


Perfis Organizacionais de Maturidade em
Ciência de Dados
Case 2 – Segmentação / Clusterização

Thiago Russo
Thiago.russo@gmail.com
Como Verificar se o Modelo de
Segmentação está Funcionando

• Análise de estabilidade de população

• Mudanças temporais

• Mudanças de perfil demográfico


Validação e Avaliação de Modelos

• Matriz de Confusão

• Indicadores estatísticos de qualidade de ajuste


Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Análise da regulamentação vigente

– Marco Civil da Internet


• De acordo com a lei, especificamente com o
Marco Civil da Internet, os brasileiros têm os
direitos de inviolabilidade da intimidade e da
vida privada

– GDPR – General Data Protection Regulation


(EU)
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Cliente VS Boa Vista Serviços AS

• Processo por Dano Moral 2013/0386285 com Recurso


Especial 1.419.697-RS pela BOA VISTA. 11/2014

• É legal a utilização de ratings de crédito


• Os dados utilizados no rating devem ser disponibilizados
para o consumidor
• Bureaus e provedores de dados estão sujeito a processos caso
sejam utilizados dados desatualizados ou equivocados
• Também são vetados o uso de informações excessivas ou
sensíveis que violem a sua honra e privacidade
Estudo de Caso

• Atua no crédito para empresas do varejo com


valores médios de USD 5000

• Monitora tendências no Facebook e Yelp para


dar crédito para empresas

• Consulta histórico de relacionamento com


PayPal, Amazon, SW de Imposto de Renda,
Yahoo, Ebay entre outros
Estudo de Caso

• Grindr – Site de relacionamentos GLBT

• Compartilhou informações sobre


– Preferência sexuais
– Status de HIV

• Com empresas parceiras para desenvolver


ofertas de produtos e serviços personalizados
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Case do Facebook e Cambridge Analytica

• O que aconteceu?

• Como aconteceu?
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Dificuldades de rastreamento e punição

• Falta de legislação e alinhamento internacional


sobre o tema

• Facilidade de migração de país para fugir das


regulamentações
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Onde está o dado que armazeno?

• Estou sujeito a quais jurisprudências e


regulamentações?
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Como melhorar a regulamentação?

• A legislação não está acompanhando a


velocidade da evolução tecnológica
Análise de Casos de Alunos

• Onde você iria capturar informações?

• Onde você iria armazenar as informações?

• Onde você iria processar as informações?


Integração de Ciência de Dados e Modelos
de Negócio
Case 3 – Modelos de Detecção de Fraude

Thiago Russo
Thiago.russo@gmail.com
Como Verificar se o Modelo de
Detecção de Fraude está Funcionando

• Detecção de Fraude é um jogo de gato e rato

• O fraudador não gasta mais esforço do que o


necessário
– Economicamente não faz sentido
– Se não está sendo pego, para quê sofisticar

• Migração de região ou indústria


Estudo de Caso

• Detecção de fraude em um ambiente com poucas


fraudes

• Detecção e rastreamento de fraude de cartões de


crédito no Japão
– Análise de redes sociais
Estudo de Caso

• Engenharia social

• O comportamento humano é um aliado na


detecção de fraude
– Preguiça
– Lei do menor esforço

• Exemplo do político pego na Lava Jato


– Depósitos fracionados
Estudo de Caso

• Engenharia social

• Análise de redes de relacionamento


– Dados temporais
– Dados georeferenciados
– Integração de diversas fontes de dados

• Caso da Lava Jato para provar onde há conluio e


combinação de resultados
Integração de Ciência de Dados e
Processos de Negócio

• Novos modelos de negócio

– Onde o Netflix é melhor que a locadora


tradicional

– Onde o Uber é melhor que o serviço de taxi

– Onde a Amazon é melhor que os outros


varejistas
Integração de Ciência de Dados e
Processos de Negócio

• Integração e encadeamento de modelos

• Foco na Experiência do Usuário


Estudo de Caso

• Aplicativo para monitoramento de saúde e


qualidade do sono

• Foco na coleta de informações

• Melhor forma de entregar os resultados


Estudo de Caso

• Aplicativo para monitoramento de saúde e


qualidade do sono
Otimização de Modelo de Negócio

• Como entregar o resultado dos modelos

• Escoragem Batch
• Escoragem Online
• Geofencing
• Beacons

• Foco na Experiência do Usuário


Automação de Processos de Negócio

• O quê automatizar?
– Processos repetitivos
– Processos com pouco valor agregado
– Processos propensos a falhas operacionais
– Processos que unitariamente consomem pouco
tempo, mas que pelo volume tem impacto
relevante
Estudo de Caso

• Como é feita a detecção de buracos em rodovias


brasileiras?

• Um veículo faz a viagem filmando a rodovia

• Uma pessoa assiste ao video acelerado


marcando cada um dos buracos identificados
Serviços Analíticos

• Atualizar com os dados do Alê


Privacidade dos Dados

• Quais dados as empresas capturam?

• Quais dados o Google tem sobre você?

• Quais dados o Facebook tem sobre você?

• Quais dados os Bancos tem sobre você?

• Quais dados as Telecoms tem sobre você?

• Quais dados o governo tem sobre você?


Privacidade dos Dados

• Facebook
Estudo de Caso

• Modelo de Score do Cidadão na China


Análise de Casos de Alunos

• Seria possível fraudar o seu modelo?

• Como impedir ou mitigar essa possibilidade

• Seria possível automatizar totalmente o processo


que você pensou?

• Como melhorar a Experiência do Usuário com o


resultado do seu processo analítico?
Data Bobagem
Case 4 – Machine Learning – Vieses e Seus
Impactos
Thiago Russo
Thiago.russo@gmail.com
Como Verificar se o Modelo de Machine
Learning está Funcionando

• Análise de resultados

• Otimização de resultados

• Treinamento Continuado (Reinforced Learning)


Como Verificar se o Modelo de Machine
Learning está Funciondo

• Caso do Chatbot da Microsoft

• Atendimento de suporte de nível 1

• Treinamento continuado com feedback e textos


da internet

• Em 48 horas virou um troll racista e homofóbico


que precisou ser retirado do ar
Data Bobagem

• Exemplos nocivos de vieses na modelagem


Estudo de Caso

• Caso de Análise de Elegibilidade para Fiança


(Justiça)
Como Melhorar a Situação e Diminuir
os Vieses

• Leis para publicidade dos modelos públicos


utilizados

– Modelos
– Dados de Treinamento / Teste
Análise de Casos de Alunos

• Como verificar se seu caso tem algum viés

• Como diminuir o impacto do viés


Fundamentos de Ciência de Dados
Ciência de Dados pela Ótica de Negócio
Obrigado!
Thiago Russo
Thiago.russo@gmail.com
Fundamentos de Ciência de Dados
Implantação e Monitoramento

Thiago Russo
Thiago.russo@gmail.com
Validação e Implantação de Modelos
Case 1 – Modelagem de Concessão de
Crédito
Thiago Russo
Thiago.russo@gmail.com
O Novo: A Trindade
Dados, Descoberta, Implantação
Crie Análises que sejam fáceis
de consumir e disseminar
Como Saber se o Modelo Funcionou?

• Relatórios
• Safras
• Outros modelos
Alteração de Modelo de Negócio

• Como entregar o resultado dos modelos

• Escoragem Batch
• Escoragem Online
• Geofencing
• Beacons

• Foco na Experiência do Usuário


Principais Tendências em Concessão
de Crédito

• Cálculo de métricas comportamentais


derivadas
• Ciclo Analítico Mais Curto
– Maior proximidade do universo transacional
– Menor esforço operacional
• Maior Velocidade na Escoragem
– Maior Frequência
– Escoragem de Tempo Real
• Maior segmentação de público e aumento do
número de modelos
• Escoragem de crédito a cada transação
• Modelos mais precisos com as mesmas
técnicas analíticas (machine learning e deep
learning)
Estudo de Caso

• “All data is credit data…”

• Atua com crédito no segmento de baixa renda


com valor médio de USD 600 e apresenta uma
taxa de inadimplência 40% menor que a média de
mercado

• Além de variáveis tradicionais utiliza dados de


navegação na internet. Ex.: Tempo de leitura do
contrato de empréstimo, numero de páginas do
banco visitadas, formato do preenchimento do
formulário, etc
Gestão de Portfólio
Planejamento Estratégico

• O que acontece se diminuirmos o spread em


0,3% para ganhar mercado?

• Qual é impacto desta política de crédito em nossa


receita ou exposição em risco?

• O que acontece se o BACEN aumentar o juros


em 0,5% ao invés de 0,25% na próxima reunião
do Copom?

• Como simular e prever estas situações?


Arquitetura de sistemas e dados

ANOS 80 / 90
Arquitetura de sistemas e dados

Até Recentemente
Arquitetura de sistemas e dados

Atualmente
Tecnologias de Alta Performance

• Grid / Processamento Paralelizado

• In-Database e Hadoop - TERADATA, EMC,


HADOOP, ORACLE, etc

• In-Memory e Visualização – SAS LASER,


HADOOP, TERADATA, HANA, etc
Tecnologias de Alta Performance
GRID

Único Servidor para a Empresa Servidores Departamentais


Tecnologias de Alta Performance
GRID

• Confiabilidade
• Priorização de Processamento
Gerenciador • Distribuição de Processamento
Grid


• Processos Críticos na Baixa
Plataforma
• Utilização da Mesma Estrutura
para Laboratório e Processos
Produtivos
Tecnologias de Alta Performance
In-Database e Hadoop

Custo de Storage e
Memória nos EUA

• Em 2000 um GB de Disco custava $17


Hoje é menos de $0.07
• EM 2000 um GB de Memória Ram
custava $1800. Hoje é menos de $1
• Em 2009 um TB de RDBMS custava
$70K. Hoje é menos de $ 20K
Tecnologias de Alta Performance
In-Database e Hadoop

“Software Open Source que permite o processamento


distribuído de grandes volumes de dados por
agrupamentos de servidores commodities”
Não é banco de dados, é um file system com
processamento paralelo

HDFS – Armazena petabytes de dados com confiança


• Simples – Vários discos ~ Sem RAID
• Confiável e Redundante ~ SW espera falha do servidor
(Não há perda de dados)
Map Reduce – Permite o processamento distribuído
• Simples e escalável. Não aplicável a todas necessidades
Tecnologias de Alta Performance
In-Database e Hadoop

Econômico e Eficiente - distribui


os dados e o processamentos
através dos nós
Tecnologias de Alta Performance
In-Database e Hadoop

Confiável – remaneja as cópias


em caso de falhas no sistema

Alta disponibilidade e tolerância


a falhas independe de hardware

Down!
Tecnologias de Alta Performance
In-Database e Hadoop

Escalabilidade ilimitada

O armazenamento e
processamento são
redistribuídos dinamicamente
Tecnologias de Alta Performance
In-Database e Hadoop

Mapear (map)

Gerar key(chave),
value(valores)

Reduzir (reduce)

Associar valores com


mesma chave, valor
Dinâmica

• Processamento Massivo em Paralelo com MMs

– Processamento de tarefa paralelizável


• Contagem
• Sumarização

– Processamento de tarefa não paralelizável


• Ordenação
Tecnologias de Alta Performance
In-Memory e Visualização
Tecnologias de Alta Performance
In-Memory e Visualização
Tecnologias de Alta Performance
In-Memory e Visualização
Analytics – Abordagem Tradicional

Sistemas Data
transacionais Warehouse / Marts

OLTP OLAP

Transações
Análises e insights
de negócios
Ações de negócios

Armazenamento em Agregações Estruturas de dados pré-


tempo real em determinadas, de baixa
Transferência
estruturas batch para flexibilidade
transacionais de
estruturas Longos tempos de resposta,
dados analíticas de dados ruim para data discovery
Complexo para
obter relatórios Perda de detalhes
Grandes volumes Processamento demorado -
Alto impacto Espera para obtenção de
relatórios
Analytics Moderno – Em Tempo Real

Dados em memória

SAP

In-Memory
Computing

Não há agregação / Não há Data Staging / Não há Data Marts


Transações
Análises e insights
de negócios
Ações de negócios

Carga em memória Alta performance em Rápido, flexível e sem perda


em tempo real grandes volumes de granularidade de detalhes
Exemplo de Arquitetura
Big Data – Exemplos Reais

• Novos modelos de negócio – coletivamente, geram


economia mais forte

• O dado em si tem valor, companhias tem comercializado e


trocado dados entre elas, gerando maior conhecimento do
negócio, melhores soluções e maior conhecimento dos
clientes

A GE analisa em tempo as pás de todos os seus motores e turbinas,


possibilitando menor custo energético e planejamento preciso e preditivo
dos caros processos de manutenção das turbinas
Big Data – Exemplos Reais

• Análise das equipes de saúde, pacientes e necessidades do público


possibilitam o desenvolvimento de métodos e políticas que atendam
com maior eficiência e eficácia os cidadãos

• Big Data Genetics é um campo em desenvolvimento que possibilitará


tratamentos específicos para os pacientes - medicina personalizada,
conforme seus perfis e antecipação de doenças. O mapa genético fará
parte dos prontuários dos pacientes

Salvando vidas com Big Data


Analytics para prever as
condições e dos pacientes
Big Data – Exemplos Reais

• Cidades Inteligentes
– Qual a quantidade ideal de lixeiras para diminuir a
sujeira nas cidades?
– Como melhorar o tráfego?
– Como empregar melhor a presença policial?
Big Data – Exemplos Reais

• Alimentos
– O emprego de soluções IoT combinadas com Big Data
tem aumentado a quantidade e qualidade de alimentos,
bem como diminuído custos. Projetos inovadores
proporcionam safras com menor consumo de
agrotóxicos, menor uso de nutrientes não naturais

Análise de sensores geológicos


e imagens das plantações estão
impactando a produção de
alimento
Informações Implícitas

• Informações que podem ser obtidas pela


ausência de um determinado dado ou informação

• Muito cuidado com isso este método

• Assim que possível encontrar um dado ou


processo que valide suas premissas e insights
Estudo de Caso

• Que insights podem ser extraídos por uma


solicitação de informação de faixa de renda
Análise de Casos de Alunos

• Como implantar o seu modelo?

• Qual arquitetura seria necessária?

• Qual tecnologia seria necessária?


Perfis Organizacionais de Maturidade em
Ciência de Dados
Case 2 – Segmentação / Clusterização

Thiago Russo
Thiago.russo@gmail.com
Como Verificar se o Modelo de
Segmentação está Funcionando

• Análise de estabilidade de população

• Mudanças temporais

• Mudanças de perfil demográfico


Validação e Avaliação de Modelos

• Matriz de Confusão

• Indicadores estatísticos de qualidade de ajuste


Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Análise da regulamentação vigente

– Marco Civil da Internet


• De acordo com a lei, especificamente com o
Marco Civil da Internet, os brasileiros têm os
direitos de inviolabilidade da intimidade e da
vida privada

– GDPR – General Data Protection Regulation


(EU)
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Cliente VS Boa Vista Serviços AS

• Processo por Dano Moral 2013/0386285 com Recurso


Especial 1.419.697-RS pela BOA VISTA. 11/2014

• É legal a utilização de ratings de crédito


• Os dados utilizados no rating devem ser disponibilizados
para o consumidor
• Bureaus e provedores de dados estão sujeito a processos caso
sejam utilizados dados desatualizados ou equivocados
• Também são vetados o uso de informações excessivas ou
sensíveis que violem a sua honra e privacidade
Estudo de Caso

• Atua no crédito para empresas do varejo com


valores médios de USD 5000

• Monitora tendências no Facebook e Yelp para


dar crédito para empresas

• Consulta histórico de relacionamento com


PayPal, Amazon, SW de Imposto de Renda,
Yahoo, Ebay entre outros
Estudo de Caso

• Grindr – Site de relacionamentos GLBT

• Compartilhou informações sobre


– Preferência sexuais
– Status de HIV

• Com empresas parceiras para desenvolver


ofertas de produtos e serviços personalizados
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Case do Facebook e Cambridge Analytica

• O que aconteceu?

• Como aconteceu?
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Dificuldades de rastreamento e punição

• Falta de legislação e alinhamento internacional


sobre o tema

• Facilidade de migração de país para fugir das


regulamentações
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Onde está o dado que armazeno?

• Estou sujeito a quais jurisprudências e


regulamentações?
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Como melhorar a regulamentação?

• A legislação não está acompanhando a


velocidade da evolução tecnológica
Análise de Casos de Alunos

• Onde você iria capturar informações?

• Onde você iria armazenar as informações?

• Onde você iria processar as informações?


Integração de Ciência de Dados e Modelos
de Negócio
Case 3 – Modelos de Detecção de Fraude

Thiago Russo
Thiago.russo@gmail.com
Como Verificar se o Modelo de
Detecção de Fraude está Funcionando

• Detecção de Fraude é um jogo de gato e rato

• O fraudador não gasta mais esforço do que o


necessário
– Economicamente não faz sentido
– Se não está sendo pego, para quê sofisticar

• Migração de região ou indústria


Estudo de Caso

• Detecção de fraude em um ambiente com poucas


fraudes

• Detecção e rastreamento de fraude de cartões de


crédito no Japão
– Análise de redes sociais
Estudo de Caso

• Engenharia social

• O comportamento humano é um aliado na


detecção de fraude
– Preguiça
– Lei do menor esforço

• Exemplo do político pego na Lava Jato


– Depósitos fracionados
Estudo de Caso

• Engenharia social

• Análise de redes de relacionamento


– Dados temporais
– Dados georeferenciados
– Integração de diversas fontes de dados

• Caso da Lava Jato para provar onde há conluio e


combinação de resultados
Integração de Ciência de Dados e
Processos de Negócio

• Novos modelos de negócio

– Onde o Netflix é melhor que a locadora


tradicional

– Onde o Uber é melhor que o serviço de taxi

– Onde a Amazon é melhor que os outros


varejistas
Integração de Ciência de Dados e
Processos de Negócio

• Integração e encadeamento de modelos

• Foco na Experiência do Usuário


Estudo de Caso

• Aplicativo para monitoramento de saúde e


qualidade do sono

• Foco na coleta de informações

• Melhor forma de entregar os resultados


Estudo de Caso

• Aplicativo para monitoramento de saúde e


qualidade do sono
Otimização de Modelo de Negócio

• Como entregar o resultado dos modelos

• Escoragem Batch
• Escoragem Online
• Geofencing
• Beacons

• Foco na Experiência do Usuário


Automação de Processos de Negócio

• O quê automatizar?
– Processos repetitivos
– Processos com pouco valor agregado
– Processos propensos a falhas operacionais
– Processos que unitariamente consomem pouco
tempo, mas que pelo volume tem impacto
relevante
Estudo de Caso

• Como é feita a detecção de buracos em rodovias


brasileiras?

• Um veículo faz a viagem filmando a rodovia

• Uma pessoa assiste ao video acelerado


marcando cada um dos buracos identificados
Serviços Analíticos

• Atualizar com os dados do Alê


Privacidade dos Dados

• Quais dados as empresas capturam?

• Quais dados o Google tem sobre você?

• Quais dados o Facebook tem sobre você?

• Quais dados os Bancos tem sobre você?

• Quais dados as Telecoms tem sobre você?

• Quais dados o governo tem sobre você?


Privacidade dos Dados

• Facebook
Estudo de Caso

• Modelo de Score do Cidadão na China


Análise de Casos de Alunos

• Seria possível fraudar o seu modelo?

• Como impedir ou mitigar essa possibilidade

• Seria possível automatizar totalmente o processo


que você pensou?

• Como melhorar a Experiência do Usuário com o


resultado do seu processo analítico?
Data Bobagem
Case 4 – Machine Learning – Vieses e Seus
Impactos
Thiago Russo
Thiago.russo@gmail.com
Como Verificar se o Modelo de Machine
Learning está Funcionando

• Análise de resultados

• Otimização de resultados

• Treinamento Continuado (Reinforced Learning)


Como Verificar se o Modelo de Machine
Learning está Funciondo

• Caso do Chatbot da Microsoft

• Atendimento de suporte de nível 1

• Treinamento continuado com feedback e textos


da internet

• Em 48 horas virou um troll racista e homofóbico


que precisou ser retirado do ar
Data Bobagem

• Exemplos nocivos de vieses na modelagem


Estudo de Caso

• Caso de Análise de Elegibilidade para Fiança


(Justiça)
Como Melhorar a Situação e Diminuir
os Vieses

• Leis para publicidade dos modelos públicos


utilizados

– Modelos
– Dados de Treinamento / Teste
Análise de Casos de Alunos

• Como verificar se seu caso tem algum viés

• Como diminuir o impacto do viés


Fundamentos de Ciência de Dados
Ciência de Dados pela Ótica de Negócio
Obrigado!
Thiago Russo
Thiago.russo@gmail.com
Fundamentos de Ciência de Dados
Implantação e Monitoramento

Thiago Russo
Thiago.russo@gmail.com
Validação e Implantação de Modelos
Case 1 – Modelagem de Concessão de
Crédito
Thiago Russo
Thiago.russo@gmail.com
O Novo: A Trindade
Dados, Descoberta, Implantação
Crie Análises que sejam fáceis
de consumir e disseminar
Como Saber se o Modelo Funcionou?

• Relatórios
• Safras
• Outros modelos
Alteração de Modelo de Negócio

• Como entregar o resultado dos modelos

• Escoragem Batch
• Escoragem Online
• Geofencing
• Beacons

• Foco na Experiência do Usuário


Principais Tendências em Concessão
de Crédito

• Cálculo de métricas comportamentais


derivadas
• Ciclo Analítico Mais Curto
– Maior proximidade do universo transacional
– Menor esforço operacional
• Maior Velocidade na Escoragem
– Maior Frequência
– Escoragem de Tempo Real
• Maior segmentação de público e aumento do
número de modelos
• Escoragem de crédito a cada transação
• Modelos mais precisos com as mesmas
técnicas analíticas (machine learning e deep
learning)
Estudo de Caso

• “All data is credit data…”

• Atua com crédito no segmento de baixa renda


com valor médio de USD 600 e apresenta uma
taxa de inadimplência 40% menor que a média de
mercado

• Além de variáveis tradicionais utiliza dados de


navegação na internet. Ex.: Tempo de leitura do
contrato de empréstimo, numero de páginas do
banco visitadas, formato do preenchimento do
formulário, etc
Gestão de Portfólio
Planejamento Estratégico

• O que acontece se diminuirmos o spread em


0,3% para ganhar mercado?

• Qual é impacto desta política de crédito em nossa


receita ou exposição em risco?

• O que acontece se o BACEN aumentar o juros


em 0,5% ao invés de 0,25% na próxima reunião
do Copom?

• Como simular e prever estas situações?


Arquitetura de sistemas e dados

ANOS 80 / 90
Arquitetura de sistemas e dados

Até Recentemente
Arquitetura de sistemas e dados

Atualmente
Tecnologias de Alta Performance

• Grid / Processamento Paralelizado

• In-Database e Hadoop - TERADATA, EMC,


HADOOP, ORACLE, etc

• In-Memory e Visualização – SAS LASER,


HADOOP, TERADATA, HANA, etc
Tecnologias de Alta Performance
GRID

Único Servidor para a Empresa Servidores Departamentais


Tecnologias de Alta Performance
GRID

• Confiabilidade
• Priorização de Processamento
Gerenciador • Distribuição de Processamento
Grid


• Processos Críticos na Baixa
Plataforma
• Utilização da Mesma Estrutura
para Laboratório e Processos
Produtivos
Tecnologias de Alta Performance
In-Database e Hadoop

Custo de Storage e
Memória nos EUA

• Em 2000 um GB de Disco custava $17


Hoje é menos de $0.07
• EM 2000 um GB de Memória Ram
custava $1800. Hoje é menos de $1
• Em 2009 um TB de RDBMS custava
$70K. Hoje é menos de $ 20K
Tecnologias de Alta Performance
In-Database e Hadoop

“Software Open Source que permite o processamento


distribuído de grandes volumes de dados por
agrupamentos de servidores commodities”
Não é banco de dados, é um file system com
processamento paralelo

HDFS – Armazena petabytes de dados com confiança


• Simples – Vários discos ~ Sem RAID
• Confiável e Redundante ~ SW espera falha do servidor
(Não há perda de dados)
Map Reduce – Permite o processamento distribuído
• Simples e escalável. Não aplicável a todas necessidades
Tecnologias de Alta Performance
In-Database e Hadoop

Econômico e Eficiente - distribui


os dados e o processamentos
através dos nós
Tecnologias de Alta Performance
In-Database e Hadoop

Confiável – remaneja as cópias


em caso de falhas no sistema

Alta disponibilidade e tolerância


a falhas independe de hardware

Down!
Tecnologias de Alta Performance
In-Database e Hadoop

Escalabilidade ilimitada

O armazenamento e
processamento são
redistribuídos dinamicamente
Tecnologias de Alta Performance
In-Database e Hadoop

Mapear (map)

Gerar key(chave),
value(valores)

Reduzir (reduce)

Associar valores com


mesma chave, valor
Dinâmica

• Processamento Massivo em Paralelo com MMs

– Processamento de tarefa paralelizável


• Contagem
• Sumarização

– Processamento de tarefa não paralelizável


• Ordenação
Tecnologias de Alta Performance
In-Memory e Visualização
Tecnologias de Alta Performance
In-Memory e Visualização
Tecnologias de Alta Performance
In-Memory e Visualização
Analytics – Abordagem Tradicional

Sistemas Data
transacionais Warehouse / Marts

OLTP OLAP

Transações
Análises e insights
de negócios
Ações de negócios

Armazenamento em Agregações Estruturas de dados pré-


tempo real em determinadas, de baixa
Transferência
estruturas batch para flexibilidade
transacionais de
estruturas Longos tempos de resposta,
dados analíticas de dados ruim para data discovery
Complexo para
obter relatórios Perda de detalhes
Grandes volumes Processamento demorado -
Alto impacto Espera para obtenção de
relatórios
Analytics Moderno – Em Tempo Real

Dados em memória

SAP

In-Memory
Computing

Não há agregação / Não há Data Staging / Não há Data Marts


Transações
Análises e insights
de negócios
Ações de negócios

Carga em memória Alta performance em Rápido, flexível e sem perda


em tempo real grandes volumes de granularidade de detalhes
Exemplo de Arquitetura
Big Data – Exemplos Reais

• Novos modelos de negócio – coletivamente, geram


economia mais forte

• O dado em si tem valor, companhias tem comercializado e


trocado dados entre elas, gerando maior conhecimento do
negócio, melhores soluções e maior conhecimento dos
clientes

A GE analisa em tempo as pás de todos os seus motores e turbinas,


possibilitando menor custo energético e planejamento preciso e preditivo
dos caros processos de manutenção das turbinas
Big Data – Exemplos Reais

• Análise das equipes de saúde, pacientes e necessidades do público


possibilitam o desenvolvimento de métodos e políticas que atendam
com maior eficiência e eficácia os cidadãos

• Big Data Genetics é um campo em desenvolvimento que possibilitará


tratamentos específicos para os pacientes - medicina personalizada,
conforme seus perfis e antecipação de doenças. O mapa genético fará
parte dos prontuários dos pacientes

Salvando vidas com Big Data


Analytics para prever as
condições e dos pacientes
Big Data – Exemplos Reais

• Cidades Inteligentes
– Qual a quantidade ideal de lixeiras para diminuir a
sujeira nas cidades?
– Como melhorar o tráfego?
– Como empregar melhor a presença policial?
Big Data – Exemplos Reais

• Alimentos
– O emprego de soluções IoT combinadas com Big Data
tem aumentado a quantidade e qualidade de alimentos,
bem como diminuído custos. Projetos inovadores
proporcionam safras com menor consumo de
agrotóxicos, menor uso de nutrientes não naturais

Análise de sensores geológicos


e imagens das plantações estão
impactando a produção de
alimento
Informações Implícitas

• Informações que podem ser obtidas pela


ausência de um determinado dado ou informação

• Muito cuidado com isso este método

• Assim que possível encontrar um dado ou


processo que valide suas premissas e insights
Estudo de Caso

• Que insights podem ser extraídos por uma


solicitação de informação de faixa de renda
Análise de Casos de Alunos

• Como implantar o seu modelo?

• Qual arquitetura seria necessária?

• Qual tecnologia seria necessária?


Perfis Organizacionais de Maturidade em
Ciência de Dados
Case 2 – Segmentação / Clusterização

Thiago Russo
Thiago.russo@gmail.com
Como Verificar se o Modelo de
Segmentação está Funcionando

• Análise de estabilidade de população

• Mudanças temporais

• Mudanças de perfil demográfico


Validação e Avaliação de Modelos

• Matriz de Confusão

• Indicadores estatísticos de qualidade de ajuste


Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Análise da regulamentação vigente

– Marco Civil da Internet


• De acordo com a lei, especificamente com o
Marco Civil da Internet, os brasileiros têm os
direitos de inviolabilidade da intimidade e da
vida privada

– GDPR – General Data Protection Regulation


(EU)
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Cliente VS Boa Vista Serviços AS

• Processo por Dano Moral 2013/0386285 com Recurso


Especial 1.419.697-RS pela BOA VISTA. 11/2014

• É legal a utilização de ratings de crédito


• Os dados utilizados no rating devem ser disponibilizados
para o consumidor
• Bureaus e provedores de dados estão sujeito a processos caso
sejam utilizados dados desatualizados ou equivocados
• Também são vetados o uso de informações excessivas ou
sensíveis que violem a sua honra e privacidade
Estudo de Caso

• Atua no crédito para empresas do varejo com


valores médios de USD 5000

• Monitora tendências no Facebook e Yelp para


dar crédito para empresas

• Consulta histórico de relacionamento com


PayPal, Amazon, SW de Imposto de Renda,
Yahoo, Ebay entre outros
Estudo de Caso

• Grindr – Site de relacionamentos GLBT

• Compartilhou informações sobre


– Preferência sexuais
– Status de HIV

• Com empresas parceiras para desenvolver


ofertas de produtos e serviços personalizados
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Case do Facebook e Cambridge Analytica

• O que aconteceu?

• Como aconteceu?
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Dificuldades de rastreamento e punição

• Falta de legislação e alinhamento internacional


sobre o tema

• Facilidade de migração de país para fugir das


regulamentações
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Onde está o dado que armazeno?

• Estou sujeito a quais jurisprudências e


regulamentações?
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Como melhorar a regulamentação?

• A legislação não está acompanhando a


velocidade da evolução tecnológica
Análise de Casos de Alunos

• Onde você iria capturar informações?

• Onde você iria armazenar as informações?

• Onde você iria processar as informações?


Integração de Ciência de Dados e Modelos
de Negócio
Case 3 – Modelos de Detecção de Fraude

Thiago Russo
Thiago.russo@gmail.com
Como Verificar se o Modelo de
Detecção de Fraude está Funcionando

• Detecção de Fraude é um jogo de gato e rato

• O fraudador não gasta mais esforço do que o


necessário
– Economicamente não faz sentido
– Se não está sendo pego, para quê sofisticar

• Migração de região ou indústria


Estudo de Caso

• Detecção de fraude em um ambiente com poucas


fraudes

• Detecção e rastreamento de fraude de cartões de


crédito no Japão
– Análise de redes sociais
Estudo de Caso

• Engenharia social

• O comportamento humano é um aliado na


detecção de fraude
– Preguiça
– Lei do menor esforço

• Exemplo do político pego na Lava Jato


– Depósitos fracionados
Estudo de Caso

• Engenharia social

• Análise de redes de relacionamento


– Dados temporais
– Dados georeferenciados
– Integração de diversas fontes de dados

• Caso da Lava Jato para provar onde há conluio e


combinação de resultados
Integração de Ciência de Dados e
Processos de Negócio

• Novos modelos de negócio

– Onde o Netflix é melhor que a locadora


tradicional

– Onde o Uber é melhor que o serviço de taxi

– Onde a Amazon é melhor que os outros


varejistas
Integração de Ciência de Dados e
Processos de Negócio

• Integração e encadeamento de modelos

• Foco na Experiência do Usuário


Estudo de Caso

• Aplicativo para monitoramento de saúde e


qualidade do sono

• Foco na coleta de informações

• Melhor forma de entregar os resultados


Estudo de Caso

• Aplicativo para monitoramento de saúde e


qualidade do sono
Otimização de Modelo de Negócio

• Como entregar o resultado dos modelos

• Escoragem Batch
• Escoragem Online
• Geofencing
• Beacons

• Foco na Experiência do Usuário


Automação de Processos de Negócio

• O quê automatizar?
– Processos repetitivos
– Processos com pouco valor agregado
– Processos propensos a falhas operacionais
– Processos que unitariamente consomem pouco
tempo, mas que pelo volume tem impacto
relevante
Estudo de Caso

• Como é feita a detecção de buracos em rodovias


brasileiras?

• Um veículo faz a viagem filmando a rodovia

• Uma pessoa assiste ao video acelerado


marcando cada um dos buracos identificados
Serviços Analíticos

• Atualizar com os dados do Alê


Privacidade dos Dados

• Quais dados as empresas capturam?

• Quais dados o Google tem sobre você?

• Quais dados o Facebook tem sobre você?

• Quais dados os Bancos tem sobre você?

• Quais dados as Telecoms tem sobre você?

• Quais dados o governo tem sobre você?


Privacidade dos Dados

• Facebook
Estudo de Caso

• Modelo de Score do Cidadão na China


Análise de Casos de Alunos

• Seria possível fraudar o seu modelo?

• Como impedir ou mitigar essa possibilidade

• Seria possível automatizar totalmente o processo


que você pensou?

• Como melhorar a Experiência do Usuário com o


resultado do seu processo analítico?
Data Bobagem
Case 4 – Machine Learning – Vieses e Seus
Impactos
Thiago Russo
Thiago.russo@gmail.com
Como Verificar se o Modelo de Machine
Learning está Funcionando

• Análise de resultados

• Otimização de resultados

• Treinamento Continuado (Reinforced Learning)


Como Verificar se o Modelo de Machine
Learning está Funciondo

• Caso do Chatbot da Microsoft

• Atendimento de suporte de nível 1

• Treinamento continuado com feedback e textos


da internet

• Em 48 horas virou um troll racista e homofóbico


que precisou ser retirado do ar
Data Bobagem

• Exemplos nocivos de vieses na modelagem


Estudo de Caso

• Caso de Análise de Elegibilidade para Fiança


(Justiça)
Como Melhorar a Situação e Diminuir
os Vieses

• Leis para publicidade dos modelos públicos


utilizados

– Modelos
– Dados de Treinamento / Teste
Análise de Casos de Alunos

• Como verificar se seu caso tem algum viés

• Como diminuir o impacto do viés


Fundamentos de Ciência de Dados
Ciência de Dados pela Ótica de Negócio
Obrigado!
Thiago Russo
Thiago.russo@gmail.com
Fundamentos de Ciência de Dados
Implantação e Monitoramento

Thiago Russo
Thiago.russo@gmail.com
Validação e Implantação de Modelos
Case 1 – Modelagem de Concessão de
Crédito
Thiago Russo
Thiago.russo@gmail.com
O Novo: A Trindade
Dados, Descoberta, Implantação
Crie Análises que sejam fáceis
de consumir e disseminar
Como Saber se o Modelo Funcionou?

• Relatórios
• Safras
• Outros modelos
Alteração de Modelo de Negócio

• Como entregar o resultado dos modelos

• Escoragem Batch
• Escoragem Online
• Geofencing
• Beacons

• Foco na Experiência do Usuário


Principais Tendências em Concessão
de Crédito

• Cálculo de métricas comportamentais


derivadas
• Ciclo Analítico Mais Curto
– Maior proximidade do universo transacional
– Menor esforço operacional
• Maior Velocidade na Escoragem
– Maior Frequência
– Escoragem de Tempo Real
• Maior segmentação de público e aumento do
número de modelos
• Escoragem de crédito a cada transação
• Modelos mais precisos com as mesmas
técnicas analíticas (machine learning e deep
learning)
Estudo de Caso

• “All data is credit data…”

• Atua com crédito no segmento de baixa renda


com valor médio de USD 600 e apresenta uma
taxa de inadimplência 40% menor que a média de
mercado

• Além de variáveis tradicionais utiliza dados de


navegação na internet. Ex.: Tempo de leitura do
contrato de empréstimo, numero de páginas do
banco visitadas, formato do preenchimento do
formulário, etc
Gestão de Portfólio
Planejamento Estratégico

• O que acontece se diminuirmos o spread em


0,3% para ganhar mercado?

• Qual é impacto desta política de crédito em nossa


receita ou exposição em risco?

• O que acontece se o BACEN aumentar o juros


em 0,5% ao invés de 0,25% na próxima reunião
do Copom?

• Como simular e prever estas situações?


Arquitetura de sistemas e dados

ANOS 80 / 90
Arquitetura de sistemas e dados

Até Recentemente
Arquitetura de sistemas e dados

Atualmente
Tecnologias de Alta Performance

• Grid / Processamento Paralelizado

• In-Database e Hadoop - TERADATA, EMC,


HADOOP, ORACLE, etc

• In-Memory e Visualização – SAS LASER,


HADOOP, TERADATA, HANA, etc
Tecnologias de Alta Performance
GRID

Único Servidor para a Empresa Servidores Departamentais


Tecnologias de Alta Performance
GRID

• Confiabilidade
• Priorização de Processamento
Gerenciador • Distribuição de Processamento
Grid


• Processos Críticos na Baixa
Plataforma
• Utilização da Mesma Estrutura
para Laboratório e Processos
Produtivos
Tecnologias de Alta Performance
In-Database e Hadoop

Custo de Storage e
Memória nos EUA

• Em 2000 um GB de Disco custava $17


Hoje é menos de $0.07
• EM 2000 um GB de Memória Ram
custava $1800. Hoje é menos de $1
• Em 2009 um TB de RDBMS custava
$70K. Hoje é menos de $ 20K
Tecnologias de Alta Performance
In-Database e Hadoop

“Software Open Source que permite o processamento


distribuído de grandes volumes de dados por
agrupamentos de servidores commodities”
Não é banco de dados, é um file system com
processamento paralelo

HDFS – Armazena petabytes de dados com confiança


• Simples – Vários discos ~ Sem RAID
• Confiável e Redundante ~ SW espera falha do servidor
(Não há perda de dados)
Map Reduce – Permite o processamento distribuído
• Simples e escalável. Não aplicável a todas necessidades
Tecnologias de Alta Performance
In-Database e Hadoop

Econômico e Eficiente - distribui


os dados e o processamentos
através dos nós
Tecnologias de Alta Performance
In-Database e Hadoop

Confiável – remaneja as cópias


em caso de falhas no sistema

Alta disponibilidade e tolerância


a falhas independe de hardware

Down!
Tecnologias de Alta Performance
In-Database e Hadoop

Escalabilidade ilimitada

O armazenamento e
processamento são
redistribuídos dinamicamente
Tecnologias de Alta Performance
In-Database e Hadoop

Mapear (map)

Gerar key(chave),
value(valores)

Reduzir (reduce)

Associar valores com


mesma chave, valor
Dinâmica

• Processamento Massivo em Paralelo com MMs

– Processamento de tarefa paralelizável


• Contagem
• Sumarização

– Processamento de tarefa não paralelizável


• Ordenação
Tecnologias de Alta Performance
In-Memory e Visualização
Tecnologias de Alta Performance
In-Memory e Visualização
Tecnologias de Alta Performance
In-Memory e Visualização
Analytics – Abordagem Tradicional

Sistemas Data
transacionais Warehouse / Marts

OLTP OLAP

Transações
Análises e insights
de negócios
Ações de negócios

Armazenamento em Agregações Estruturas de dados pré-


tempo real em determinadas, de baixa
Transferência
estruturas batch para flexibilidade
transacionais de
estruturas Longos tempos de resposta,
dados analíticas de dados ruim para data discovery
Complexo para
obter relatórios Perda de detalhes
Grandes volumes Processamento demorado -
Alto impacto Espera para obtenção de
relatórios
Analytics Moderno – Em Tempo Real

Dados em memória

SAP

In-Memory
Computing

Não há agregação / Não há Data Staging / Não há Data Marts


Transações
Análises e insights
de negócios
Ações de negócios

Carga em memória Alta performance em Rápido, flexível e sem perda


em tempo real grandes volumes de granularidade de detalhes
Exemplo de Arquitetura
Big Data – Exemplos Reais

• Novos modelos de negócio – coletivamente, geram


economia mais forte

• O dado em si tem valor, companhias tem comercializado e


trocado dados entre elas, gerando maior conhecimento do
negócio, melhores soluções e maior conhecimento dos
clientes

A GE analisa em tempo as pás de todos os seus motores e turbinas,


possibilitando menor custo energético e planejamento preciso e preditivo
dos caros processos de manutenção das turbinas
Big Data – Exemplos Reais

• Análise das equipes de saúde, pacientes e necessidades do público


possibilitam o desenvolvimento de métodos e políticas que atendam
com maior eficiência e eficácia os cidadãos

• Big Data Genetics é um campo em desenvolvimento que possibilitará


tratamentos específicos para os pacientes - medicina personalizada,
conforme seus perfis e antecipação de doenças. O mapa genético fará
parte dos prontuários dos pacientes

Salvando vidas com Big Data


Analytics para prever as
condições e dos pacientes
Big Data – Exemplos Reais

• Cidades Inteligentes
– Qual a quantidade ideal de lixeiras para diminuir a
sujeira nas cidades?
– Como melhorar o tráfego?
– Como empregar melhor a presença policial?
Big Data – Exemplos Reais

• Alimentos
– O emprego de soluções IoT combinadas com Big Data
tem aumentado a quantidade e qualidade de alimentos,
bem como diminuído custos. Projetos inovadores
proporcionam safras com menor consumo de
agrotóxicos, menor uso de nutrientes não naturais

Análise de sensores geológicos


e imagens das plantações estão
impactando a produção de
alimento
Informações Implícitas

• Informações que podem ser obtidas pela


ausência de um determinado dado ou informação

• Muito cuidado com isso este método

• Assim que possível encontrar um dado ou


processo que valide suas premissas e insights
Estudo de Caso

• Que insights podem ser extraídos por uma


solicitação de informação de faixa de renda
Análise de Casos de Alunos

• Como implantar o seu modelo?

• Qual arquitetura seria necessária?

• Qual tecnologia seria necessária?


Perfis Organizacionais de Maturidade em
Ciência de Dados
Case 2 – Segmentação / Clusterização

Thiago Russo
Thiago.russo@gmail.com
Como Verificar se o Modelo de
Segmentação está Funcionando

• Análise de estabilidade de população

• Mudanças temporais

• Mudanças de perfil demográfico


Validação e Avaliação de Modelos

• Matriz de Confusão

• Indicadores estatísticos de qualidade de ajuste


Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Análise da regulamentação vigente

– Marco Civil da Internet


• De acordo com a lei, especificamente com o
Marco Civil da Internet, os brasileiros têm os
direitos de inviolabilidade da intimidade e da
vida privada

– GDPR – General Data Protection Regulation


(EU)
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Cliente VS Boa Vista Serviços AS

• Processo por Dano Moral 2013/0386285 com Recurso


Especial 1.419.697-RS pela BOA VISTA. 11/2014

• É legal a utilização de ratings de crédito


• Os dados utilizados no rating devem ser disponibilizados
para o consumidor
• Bureaus e provedores de dados estão sujeito a processos caso
sejam utilizados dados desatualizados ou equivocados
• Também são vetados o uso de informações excessivas ou
sensíveis que violem a sua honra e privacidade
Estudo de Caso

• Atua no crédito para empresas do varejo com


valores médios de USD 5000

• Monitora tendências no Facebook e Yelp para


dar crédito para empresas

• Consulta histórico de relacionamento com


PayPal, Amazon, SW de Imposto de Renda,
Yahoo, Ebay entre outros
Estudo de Caso

• Grindr – Site de relacionamentos GLBT

• Compartilhou informações sobre


– Preferência sexuais
– Status de HIV

• Com empresas parceiras para desenvolver


ofertas de produtos e serviços personalizados
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Case do Facebook e Cambridge Analytica

• O que aconteceu?

• Como aconteceu?
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Dificuldades de rastreamento e punição

• Falta de legislação e alinhamento internacional


sobre o tema

• Facilidade de migração de país para fugir das


regulamentações
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Onde está o dado que armazeno?

• Estou sujeito a quais jurisprudências e


regulamentações?
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Como melhorar a regulamentação?

• A legislação não está acompanhando a


velocidade da evolução tecnológica
Análise de Casos de Alunos

• Onde você iria capturar informações?

• Onde você iria armazenar as informações?

• Onde você iria processar as informações?


Integração de Ciência de Dados e Modelos
de Negócio
Case 3 – Modelos de Detecção de Fraude

Thiago Russo
Thiago.russo@gmail.com
Como Verificar se o Modelo de
Detecção de Fraude está Funcionando

• Detecção de Fraude é um jogo de gato e rato

• O fraudador não gasta mais esforço do que o


necessário
– Economicamente não faz sentido
– Se não está sendo pego, para quê sofisticar

• Migração de região ou indústria


Estudo de Caso

• Detecção de fraude em um ambiente com poucas


fraudes

• Detecção e rastreamento de fraude de cartões de


crédito no Japão
– Análise de redes sociais
Estudo de Caso

• Engenharia social

• O comportamento humano é um aliado na


detecção de fraude
– Preguiça
– Lei do menor esforço

• Exemplo do político pego na Lava Jato


– Depósitos fracionados
Estudo de Caso

• Engenharia social

• Análise de redes de relacionamento


– Dados temporais
– Dados georeferenciados
– Integração de diversas fontes de dados

• Caso da Lava Jato para provar onde há conluio e


combinação de resultados
Integração de Ciência de Dados e
Processos de Negócio

• Novos modelos de negócio

– Onde o Netflix é melhor que a locadora


tradicional

– Onde o Uber é melhor que o serviço de taxi

– Onde a Amazon é melhor que os outros


varejistas
Integração de Ciência de Dados e
Processos de Negócio

• Integração e encadeamento de modelos

• Foco na Experiência do Usuário


Estudo de Caso

• Aplicativo para monitoramento de saúde e


qualidade do sono

• Foco na coleta de informações

• Melhor forma de entregar os resultados


Estudo de Caso

• Aplicativo para monitoramento de saúde e


qualidade do sono
Otimização de Modelo de Negócio

• Como entregar o resultado dos modelos

• Escoragem Batch
• Escoragem Online
• Geofencing
• Beacons

• Foco na Experiência do Usuário


Automação de Processos de Negócio

• O quê automatizar?
– Processos repetitivos
– Processos com pouco valor agregado
– Processos propensos a falhas operacionais
– Processos que unitariamente consomem pouco
tempo, mas que pelo volume tem impacto
relevante
Estudo de Caso

• Como é feita a detecção de buracos em rodovias


brasileiras?

• Um veículo faz a viagem filmando a rodovia

• Uma pessoa assiste ao video acelerado


marcando cada um dos buracos identificados
Serviços Analíticos

• Atualizar com os dados do Alê


Privacidade dos Dados

• Quais dados as empresas capturam?

• Quais dados o Google tem sobre você?

• Quais dados o Facebook tem sobre você?

• Quais dados os Bancos tem sobre você?

• Quais dados as Telecoms tem sobre você?

• Quais dados o governo tem sobre você?


Privacidade dos Dados

• Facebook
Estudo de Caso

• Modelo de Score do Cidadão na China


Análise de Casos de Alunos

• Seria possível fraudar o seu modelo?

• Como impedir ou mitigar essa possibilidade

• Seria possível automatizar totalmente o processo


que você pensou?

• Como melhorar a Experiência do Usuário com o


resultado do seu processo analítico?
Data Bobagem
Case 4 – Machine Learning – Vieses e Seus
Impactos
Thiago Russo
Thiago.russo@gmail.com
Como Verificar se o Modelo de Machine
Learning está Funcionando

• Análise de resultados

• Otimização de resultados

• Treinamento Continuado (Reinforced Learning)


Como Verificar se o Modelo de Machine
Learning está Funciondo

• Caso do Chatbot da Microsoft

• Atendimento de suporte de nível 1

• Treinamento continuado com feedback e textos


da internet

• Em 48 horas virou um troll racista e homofóbico


que precisou ser retirado do ar
Data Bobagem

• Exemplos nocivos de vieses na modelagem


Estudo de Caso

• Caso de Análise de Elegibilidade para Fiança


(Justiça)
Como Melhorar a Situação e Diminuir
os Vieses

• Leis para publicidade dos modelos públicos


utilizados

– Modelos
– Dados de Treinamento / Teste
Análise de Casos de Alunos

• Como verificar se seu caso tem algum viés

• Como diminuir o impacto do viés


Fundamentos de Ciência de Dados
Ciência de Dados pela Ótica de Negócio
Obrigado!
Thiago Russo
Thiago.russo@gmail.com
Fundamentos de Ciência de Dados
Implantação e Monitoramento

Thiago Russo
Thiago.russo@gmail.com
Validação e Implantação de Modelos
Case 1 – Modelagem de Concessão de
Crédito
Thiago Russo
Thiago.russo@gmail.com
O Novo: A Trindade
Dados, Descoberta, Implantação
Crie Análises que sejam fáceis
de consumir e disseminar
Como Saber se o Modelo Funcionou?

• Relatórios
• Safras
• Outros modelos
Alteração de Modelo de Negócio

• Como entregar o resultado dos modelos

• Escoragem Batch
• Escoragem Online
• Geofencing
• Beacons

• Foco na Experiência do Usuário


Principais Tendências em Concessão
de Crédito

• Cálculo de métricas comportamentais


derivadas
• Ciclo Analítico Mais Curto
– Maior proximidade do universo transacional
– Menor esforço operacional
• Maior Velocidade na Escoragem
– Maior Frequência
– Escoragem de Tempo Real
• Maior segmentação de público e aumento do
número de modelos
• Escoragem de crédito a cada transação
• Modelos mais precisos com as mesmas
técnicas analíticas (machine learning e deep
learning)
Estudo de Caso

• “All data is credit data…”

• Atua com crédito no segmento de baixa renda


com valor médio de USD 600 e apresenta uma
taxa de inadimplência 40% menor que a média de
mercado

• Além de variáveis tradicionais utiliza dados de


navegação na internet. Ex.: Tempo de leitura do
contrato de empréstimo, numero de páginas do
banco visitadas, formato do preenchimento do
formulário, etc
Gestão de Portfólio
Planejamento Estratégico

• O que acontece se diminuirmos o spread em


0,3% para ganhar mercado?

• Qual é impacto desta política de crédito em nossa


receita ou exposição em risco?

• O que acontece se o BACEN aumentar o juros


em 0,5% ao invés de 0,25% na próxima reunião
do Copom?

• Como simular e prever estas situações?


Arquitetura de sistemas e dados

ANOS 80 / 90
Arquitetura de sistemas e dados

Até Recentemente
Arquitetura de sistemas e dados

Atualmente
Tecnologias de Alta Performance

• Grid / Processamento Paralelizado

• In-Database e Hadoop - TERADATA, EMC,


HADOOP, ORACLE, etc

• In-Memory e Visualização – SAS LASER,


HADOOP, TERADATA, HANA, etc
Tecnologias de Alta Performance
GRID

Único Servidor para a Empresa Servidores Departamentais


Tecnologias de Alta Performance
GRID

• Confiabilidade
• Priorização de Processamento
Gerenciador • Distribuição de Processamento
Grid


• Processos Críticos na Baixa
Plataforma
• Utilização da Mesma Estrutura
para Laboratório e Processos
Produtivos
Tecnologias de Alta Performance
In-Database e Hadoop

Custo de Storage e
Memória nos EUA

• Em 2000 um GB de Disco custava $17


Hoje é menos de $0.07
• EM 2000 um GB de Memória Ram
custava $1800. Hoje é menos de $1
• Em 2009 um TB de RDBMS custava
$70K. Hoje é menos de $ 20K
Tecnologias de Alta Performance
In-Database e Hadoop

“Software Open Source que permite o processamento


distribuído de grandes volumes de dados por
agrupamentos de servidores commodities”
Não é banco de dados, é um file system com
processamento paralelo

HDFS – Armazena petabytes de dados com confiança


• Simples – Vários discos ~ Sem RAID
• Confiável e Redundante ~ SW espera falha do servidor
(Não há perda de dados)
Map Reduce – Permite o processamento distribuído
• Simples e escalável. Não aplicável a todas necessidades
Tecnologias de Alta Performance
In-Database e Hadoop

Econômico e Eficiente - distribui


os dados e o processamentos
através dos nós
Tecnologias de Alta Performance
In-Database e Hadoop

Confiável – remaneja as cópias


em caso de falhas no sistema

Alta disponibilidade e tolerância


a falhas independe de hardware

Down!
Tecnologias de Alta Performance
In-Database e Hadoop

Escalabilidade ilimitada

O armazenamento e
processamento são
redistribuídos dinamicamente
Tecnologias de Alta Performance
In-Database e Hadoop

Mapear (map)

Gerar key(chave),
value(valores)

Reduzir (reduce)

Associar valores com


mesma chave, valor
Dinâmica

• Processamento Massivo em Paralelo com MMs

– Processamento de tarefa paralelizável


• Contagem
• Sumarização

– Processamento de tarefa não paralelizável


• Ordenação
Tecnologias de Alta Performance
In-Memory e Visualização
Tecnologias de Alta Performance
In-Memory e Visualização
Tecnologias de Alta Performance
In-Memory e Visualização
Analytics – Abordagem Tradicional

Sistemas Data
transacionais Warehouse / Marts

OLTP OLAP

Transações
Análises e insights
de negócios
Ações de negócios

Armazenamento em Agregações Estruturas de dados pré-


tempo real em determinadas, de baixa
Transferência
estruturas batch para flexibilidade
transacionais de
estruturas Longos tempos de resposta,
dados analíticas de dados ruim para data discovery
Complexo para
obter relatórios Perda de detalhes
Grandes volumes Processamento demorado -
Alto impacto Espera para obtenção de
relatórios
Analytics Moderno – Em Tempo Real

Dados em memória

SAP

In-Memory
Computing

Não há agregação / Não há Data Staging / Não há Data Marts


Transações
Análises e insights
de negócios
Ações de negócios

Carga em memória Alta performance em Rápido, flexível e sem perda


em tempo real grandes volumes de granularidade de detalhes
Exemplo de Arquitetura
Big Data – Exemplos Reais

• Novos modelos de negócio – coletivamente, geram


economia mais forte

• O dado em si tem valor, companhias tem comercializado e


trocado dados entre elas, gerando maior conhecimento do
negócio, melhores soluções e maior conhecimento dos
clientes

A GE analisa em tempo as pás de todos os seus motores e turbinas,


possibilitando menor custo energético e planejamento preciso e preditivo
dos caros processos de manutenção das turbinas
Big Data – Exemplos Reais

• Análise das equipes de saúde, pacientes e necessidades do público


possibilitam o desenvolvimento de métodos e políticas que atendam
com maior eficiência e eficácia os cidadãos

• Big Data Genetics é um campo em desenvolvimento que possibilitará


tratamentos específicos para os pacientes - medicina personalizada,
conforme seus perfis e antecipação de doenças. O mapa genético fará
parte dos prontuários dos pacientes

Salvando vidas com Big Data


Analytics para prever as
condições e dos pacientes
Big Data – Exemplos Reais

• Cidades Inteligentes
– Qual a quantidade ideal de lixeiras para diminuir a
sujeira nas cidades?
– Como melhorar o tráfego?
– Como empregar melhor a presença policial?
Big Data – Exemplos Reais

• Alimentos
– O emprego de soluções IoT combinadas com Big Data
tem aumentado a quantidade e qualidade de alimentos,
bem como diminuído custos. Projetos inovadores
proporcionam safras com menor consumo de
agrotóxicos, menor uso de nutrientes não naturais

Análise de sensores geológicos


e imagens das plantações estão
impactando a produção de
alimento
Informações Implícitas

• Informações que podem ser obtidas pela


ausência de um determinado dado ou informação

• Muito cuidado com isso este método

• Assim que possível encontrar um dado ou


processo que valide suas premissas e insights
Estudo de Caso

• Que insights podem ser extraídos por uma


solicitação de informação de faixa de renda
Análise de Casos de Alunos

• Como implantar o seu modelo?

• Qual arquitetura seria necessária?

• Qual tecnologia seria necessária?


Perfis Organizacionais de Maturidade em
Ciência de Dados
Case 2 – Segmentação / Clusterização

Thiago Russo
Thiago.russo@gmail.com
Como Verificar se o Modelo de
Segmentação está Funcionando

• Análise de estabilidade de população

• Mudanças temporais

• Mudanças de perfil demográfico


Validação e Avaliação de Modelos

• Matriz de Confusão

• Indicadores estatísticos de qualidade de ajuste


Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Análise da regulamentação vigente

– Marco Civil da Internet


• De acordo com a lei, especificamente com o
Marco Civil da Internet, os brasileiros têm os
direitos de inviolabilidade da intimidade e da
vida privada

– GDPR – General Data Protection Regulation


(EU)
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Cliente VS Boa Vista Serviços AS

• Processo por Dano Moral 2013/0386285 com Recurso


Especial 1.419.697-RS pela BOA VISTA. 11/2014

• É legal a utilização de ratings de crédito


• Os dados utilizados no rating devem ser disponibilizados
para o consumidor
• Bureaus e provedores de dados estão sujeito a processos caso
sejam utilizados dados desatualizados ou equivocados
• Também são vetados o uso de informações excessivas ou
sensíveis que violem a sua honra e privacidade
Estudo de Caso

• Atua no crédito para empresas do varejo com


valores médios de USD 5000

• Monitora tendências no Facebook e Yelp para


dar crédito para empresas

• Consulta histórico de relacionamento com


PayPal, Amazon, SW de Imposto de Renda,
Yahoo, Ebay entre outros
Estudo de Caso

• Grindr – Site de relacionamentos GLBT

• Compartilhou informações sobre


– Preferência sexuais
– Status de HIV

• Com empresas parceiras para desenvolver


ofertas de produtos e serviços personalizados
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Case do Facebook e Cambridge Analytica

• O que aconteceu?

• Como aconteceu?
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Dificuldades de rastreamento e punição

• Falta de legislação e alinhamento internacional


sobre o tema

• Facilidade de migração de país para fugir das


regulamentações
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Onde está o dado que armazeno?

• Estou sujeito a quais jurisprudências e


regulamentações?
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Como melhorar a regulamentação?

• A legislação não está acompanhando a


velocidade da evolução tecnológica
Análise de Casos de Alunos

• Onde você iria capturar informações?

• Onde você iria armazenar as informações?

• Onde você iria processar as informações?


Integração de Ciência de Dados e Modelos
de Negócio
Case 3 – Modelos de Detecção de Fraude

Thiago Russo
Thiago.russo@gmail.com
Como Verificar se o Modelo de
Detecção de Fraude está Funcionando

• Detecção de Fraude é um jogo de gato e rato

• O fraudador não gasta mais esforço do que o


necessário
– Economicamente não faz sentido
– Se não está sendo pego, para quê sofisticar

• Migração de região ou indústria


Estudo de Caso

• Detecção de fraude em um ambiente com poucas


fraudes

• Detecção e rastreamento de fraude de cartões de


crédito no Japão
– Análise de redes sociais
Estudo de Caso

• Engenharia social

• O comportamento humano é um aliado na


detecção de fraude
– Preguiça
– Lei do menor esforço

• Exemplo do político pego na Lava Jato


– Depósitos fracionados
Estudo de Caso

• Engenharia social

• Análise de redes de relacionamento


– Dados temporais
– Dados georeferenciados
– Integração de diversas fontes de dados

• Caso da Lava Jato para provar onde há conluio e


combinação de resultados
Integração de Ciência de Dados e
Processos de Negócio

• Novos modelos de negócio

– Onde o Netflix é melhor que a locadora


tradicional

– Onde o Uber é melhor que o serviço de taxi

– Onde a Amazon é melhor que os outros


varejistas
Integração de Ciência de Dados e
Processos de Negócio

• Integração e encadeamento de modelos

• Foco na Experiência do Usuário


Estudo de Caso

• Aplicativo para monitoramento de saúde e


qualidade do sono

• Foco na coleta de informações

• Melhor forma de entregar os resultados


Estudo de Caso

• Aplicativo para monitoramento de saúde e


qualidade do sono
Otimização de Modelo de Negócio

• Como entregar o resultado dos modelos

• Escoragem Batch
• Escoragem Online
• Geofencing
• Beacons

• Foco na Experiência do Usuário


Automação de Processos de Negócio

• O quê automatizar?
– Processos repetitivos
– Processos com pouco valor agregado
– Processos propensos a falhas operacionais
– Processos que unitariamente consomem pouco
tempo, mas que pelo volume tem impacto
relevante
Estudo de Caso

• Como é feita a detecção de buracos em rodovias


brasileiras?

• Um veículo faz a viagem filmando a rodovia

• Uma pessoa assiste ao video acelerado


marcando cada um dos buracos identificados
Serviços Analíticos

• Atualizar com os dados do Alê


Privacidade dos Dados

• Quais dados as empresas capturam?

• Quais dados o Google tem sobre você?

• Quais dados o Facebook tem sobre você?

• Quais dados os Bancos tem sobre você?

• Quais dados as Telecoms tem sobre você?

• Quais dados o governo tem sobre você?


Privacidade dos Dados

• Facebook
Estudo de Caso

• Modelo de Score do Cidadão na China


Análise de Casos de Alunos

• Seria possível fraudar o seu modelo?

• Como impedir ou mitigar essa possibilidade

• Seria possível automatizar totalmente o processo


que você pensou?

• Como melhorar a Experiência do Usuário com o


resultado do seu processo analítico?
Data Bobagem
Case 4 – Machine Learning – Vieses e Seus
Impactos
Thiago Russo
Thiago.russo@gmail.com
Como Verificar se o Modelo de Machine
Learning está Funcionando

• Análise de resultados

• Otimização de resultados

• Treinamento Continuado (Reinforced Learning)


Como Verificar se o Modelo de Machine
Learning está Funciondo

• Caso do Chatbot da Microsoft

• Atendimento de suporte de nível 1

• Treinamento continuado com feedback e textos


da internet

• Em 48 horas virou um troll racista e homofóbico


que precisou ser retirado do ar
Data Bobagem

• Exemplos nocivos de vieses na modelagem


Estudo de Caso

• Caso de Análise de Elegibilidade para Fiança


(Justiça)
Como Melhorar a Situação e Diminuir
os Vieses

• Leis para publicidade dos modelos públicos


utilizados

– Modelos
– Dados de Treinamento / Teste
Análise de Casos de Alunos

• Como verificar se seu caso tem algum viés

• Como diminuir o impacto do viés


Fundamentos de Ciência de Dados
Ciência de Dados pela Ótica de Negócio
Obrigado!
Thiago Russo
Thiago.russo@gmail.com
Fundamentos de Ciência de Dados
Implantação e Monitoramento

Thiago Russo
Thiago.russo@gmail.com
Validação e Implantação de Modelos
Case 1 – Modelagem de Concessão de
Crédito
Thiago Russo
Thiago.russo@gmail.com
O Novo: A Trindade
Dados, Descoberta, Implantação
Crie Análises que sejam fáceis
de consumir e disseminar
Como Saber se o Modelo Funcionou?

• Relatórios
• Safras
• Outros modelos
Alteração de Modelo de Negócio

• Como entregar o resultado dos modelos

• Escoragem Batch
• Escoragem Online
• Geofencing
• Beacons

• Foco na Experiência do Usuário


Principais Tendências em Concessão
de Crédito

• Cálculo de métricas comportamentais


derivadas
• Ciclo Analítico Mais Curto
– Maior proximidade do universo transacional
– Menor esforço operacional
• Maior Velocidade na Escoragem
– Maior Frequência
– Escoragem de Tempo Real
• Maior segmentação de público e aumento do
número de modelos
• Escoragem de crédito a cada transação
• Modelos mais precisos com as mesmas
técnicas analíticas (machine learning e deep
learning)
Estudo de Caso

• “All data is credit data…”

• Atua com crédito no segmento de baixa renda


com valor médio de USD 600 e apresenta uma
taxa de inadimplência 40% menor que a média de
mercado

• Além de variáveis tradicionais utiliza dados de


navegação na internet. Ex.: Tempo de leitura do
contrato de empréstimo, numero de páginas do
banco visitadas, formato do preenchimento do
formulário, etc
Gestão de Portfólio
Planejamento Estratégico

• O que acontece se diminuirmos o spread em


0,3% para ganhar mercado?

• Qual é impacto desta política de crédito em nossa


receita ou exposição em risco?

• O que acontece se o BACEN aumentar o juros


em 0,5% ao invés de 0,25% na próxima reunião
do Copom?

• Como simular e prever estas situações?


Arquitetura de sistemas e dados

ANOS 80 / 90
Arquitetura de sistemas e dados

Até Recentemente
Arquitetura de sistemas e dados

Atualmente
Tecnologias de Alta Performance

• Grid / Processamento Paralelizado

• In-Database e Hadoop - TERADATA, EMC,


HADOOP, ORACLE, etc

• In-Memory e Visualização – SAS LASER,


HADOOP, TERADATA, HANA, etc
Tecnologias de Alta Performance
GRID

Único Servidor para a Empresa Servidores Departamentais


Tecnologias de Alta Performance
GRID

• Confiabilidade
• Priorização de Processamento
Gerenciador • Distribuição de Processamento
Grid


• Processos Críticos na Baixa
Plataforma
• Utilização da Mesma Estrutura
para Laboratório e Processos
Produtivos
Tecnologias de Alta Performance
In-Database e Hadoop

Custo de Storage e
Memória nos EUA

• Em 2000 um GB de Disco custava $17


Hoje é menos de $0.07
• EM 2000 um GB de Memória Ram
custava $1800. Hoje é menos de $1
• Em 2009 um TB de RDBMS custava
$70K. Hoje é menos de $ 20K
Tecnologias de Alta Performance
In-Database e Hadoop

“Software Open Source que permite o processamento


distribuído de grandes volumes de dados por
agrupamentos de servidores commodities”
Não é banco de dados, é um file system com
processamento paralelo

HDFS – Armazena petabytes de dados com confiança


• Simples – Vários discos ~ Sem RAID
• Confiável e Redundante ~ SW espera falha do servidor
(Não há perda de dados)
Map Reduce – Permite o processamento distribuído
• Simples e escalável. Não aplicável a todas necessidades
Tecnologias de Alta Performance
In-Database e Hadoop

Econômico e Eficiente - distribui


os dados e o processamentos
através dos nós
Tecnologias de Alta Performance
In-Database e Hadoop

Confiável – remaneja as cópias


em caso de falhas no sistema

Alta disponibilidade e tolerância


a falhas independe de hardware

Down!
Tecnologias de Alta Performance
In-Database e Hadoop

Escalabilidade ilimitada

O armazenamento e
processamento são
redistribuídos dinamicamente
Tecnologias de Alta Performance
In-Database e Hadoop

Mapear (map)

Gerar key(chave),
value(valores)

Reduzir (reduce)

Associar valores com


mesma chave, valor
Dinâmica

• Processamento Massivo em Paralelo com MMs

– Processamento de tarefa paralelizável


• Contagem
• Sumarização

– Processamento de tarefa não paralelizável


• Ordenação
Tecnologias de Alta Performance
In-Memory e Visualização
Tecnologias de Alta Performance
In-Memory e Visualização
Tecnologias de Alta Performance
In-Memory e Visualização
Analytics – Abordagem Tradicional

Sistemas Data
transacionais Warehouse / Marts

OLTP OLAP

Transações
Análises e insights
de negócios
Ações de negócios

Armazenamento em Agregações Estruturas de dados pré-


tempo real em determinadas, de baixa
Transferência
estruturas batch para flexibilidade
transacionais de
estruturas Longos tempos de resposta,
dados analíticas de dados ruim para data discovery
Complexo para
obter relatórios Perda de detalhes
Grandes volumes Processamento demorado -
Alto impacto Espera para obtenção de
relatórios
Analytics Moderno – Em Tempo Real

Dados em memória

SAP

In-Memory
Computing

Não há agregação / Não há Data Staging / Não há Data Marts


Transações
Análises e insights
de negócios
Ações de negócios

Carga em memória Alta performance em Rápido, flexível e sem perda


em tempo real grandes volumes de granularidade de detalhes
Exemplo de Arquitetura
Big Data – Exemplos Reais

• Novos modelos de negócio – coletivamente, geram


economia mais forte

• O dado em si tem valor, companhias tem comercializado e


trocado dados entre elas, gerando maior conhecimento do
negócio, melhores soluções e maior conhecimento dos
clientes

A GE analisa em tempo as pás de todos os seus motores e turbinas,


possibilitando menor custo energético e planejamento preciso e preditivo
dos caros processos de manutenção das turbinas
Big Data – Exemplos Reais

• Análise das equipes de saúde, pacientes e necessidades do público


possibilitam o desenvolvimento de métodos e políticas que atendam
com maior eficiência e eficácia os cidadãos

• Big Data Genetics é um campo em desenvolvimento que possibilitará


tratamentos específicos para os pacientes - medicina personalizada,
conforme seus perfis e antecipação de doenças. O mapa genético fará
parte dos prontuários dos pacientes

Salvando vidas com Big Data


Analytics para prever as
condições e dos pacientes
Big Data – Exemplos Reais

• Cidades Inteligentes
– Qual a quantidade ideal de lixeiras para diminuir a
sujeira nas cidades?
– Como melhorar o tráfego?
– Como empregar melhor a presença policial?
Big Data – Exemplos Reais

• Alimentos
– O emprego de soluções IoT combinadas com Big Data
tem aumentado a quantidade e qualidade de alimentos,
bem como diminuído custos. Projetos inovadores
proporcionam safras com menor consumo de
agrotóxicos, menor uso de nutrientes não naturais

Análise de sensores geológicos


e imagens das plantações estão
impactando a produção de
alimento
Informações Implícitas

• Informações que podem ser obtidas pela


ausência de um determinado dado ou informação

• Muito cuidado com isso este método

• Assim que possível encontrar um dado ou


processo que valide suas premissas e insights
Estudo de Caso

• Que insights podem ser extraídos por uma


solicitação de informação de faixa de renda
Análise de Casos de Alunos

• Como implantar o seu modelo?

• Qual arquitetura seria necessária?

• Qual tecnologia seria necessária?


Perfis Organizacionais de Maturidade em
Ciência de Dados
Case 2 – Segmentação / Clusterização

Thiago Russo
Thiago.russo@gmail.com
Como Verificar se o Modelo de
Segmentação está Funcionando

• Análise de estabilidade de população

• Mudanças temporais

• Mudanças de perfil demográfico


Validação e Avaliação de Modelos

• Matriz de Confusão

• Indicadores estatísticos de qualidade de ajuste


Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Análise da regulamentação vigente

– Marco Civil da Internet


• De acordo com a lei, especificamente com o
Marco Civil da Internet, os brasileiros têm os
direitos de inviolabilidade da intimidade e da
vida privada

– GDPR – General Data Protection Regulation


(EU)
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Cliente VS Boa Vista Serviços AS

• Processo por Dano Moral 2013/0386285 com Recurso


Especial 1.419.697-RS pela BOA VISTA. 11/2014

• É legal a utilização de ratings de crédito


• Os dados utilizados no rating devem ser disponibilizados
para o consumidor
• Bureaus e provedores de dados estão sujeito a processos caso
sejam utilizados dados desatualizados ou equivocados
• Também são vetados o uso de informações excessivas ou
sensíveis que violem a sua honra e privacidade
Estudo de Caso

• Atua no crédito para empresas do varejo com


valores médios de USD 5000

• Monitora tendências no Facebook e Yelp para


dar crédito para empresas

• Consulta histórico de relacionamento com


PayPal, Amazon, SW de Imposto de Renda,
Yahoo, Ebay entre outros
Estudo de Caso

• Grindr – Site de relacionamentos GLBT

• Compartilhou informações sobre


– Preferência sexuais
– Status de HIV

• Com empresas parceiras para desenvolver


ofertas de produtos e serviços personalizados
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Case do Facebook e Cambridge Analytica

• O que aconteceu?

• Como aconteceu?
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Dificuldades de rastreamento e punição

• Falta de legislação e alinhamento internacional


sobre o tema

• Facilidade de migração de país para fugir das


regulamentações
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Onde está o dado que armazeno?

• Estou sujeito a quais jurisprudências e


regulamentações?
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Como melhorar a regulamentação?

• A legislação não está acompanhando a


velocidade da evolução tecnológica
Análise de Casos de Alunos

• Onde você iria capturar informações?

• Onde você iria armazenar as informações?

• Onde você iria processar as informações?


Integração de Ciência de Dados e Modelos
de Negócio
Case 3 – Modelos de Detecção de Fraude

Thiago Russo
Thiago.russo@gmail.com
Como Verificar se o Modelo de
Detecção de Fraude está Funcionando

• Detecção de Fraude é um jogo de gato e rato

• O fraudador não gasta mais esforço do que o


necessário
– Economicamente não faz sentido
– Se não está sendo pego, para quê sofisticar

• Migração de região ou indústria


Estudo de Caso

• Detecção de fraude em um ambiente com poucas


fraudes

• Detecção e rastreamento de fraude de cartões de


crédito no Japão
– Análise de redes sociais
Estudo de Caso

• Engenharia social

• O comportamento humano é um aliado na


detecção de fraude
– Preguiça
– Lei do menor esforço

• Exemplo do político pego na Lava Jato


– Depósitos fracionados
Estudo de Caso

• Engenharia social

• Análise de redes de relacionamento


– Dados temporais
– Dados georeferenciados
– Integração de diversas fontes de dados

• Caso da Lava Jato para provar onde há conluio e


combinação de resultados
Integração de Ciência de Dados e
Processos de Negócio

• Novos modelos de negócio

– Onde o Netflix é melhor que a locadora


tradicional

– Onde o Uber é melhor que o serviço de taxi

– Onde a Amazon é melhor que os outros


varejistas
Integração de Ciência de Dados e
Processos de Negócio

• Integração e encadeamento de modelos

• Foco na Experiência do Usuário


Estudo de Caso

• Aplicativo para monitoramento de saúde e


qualidade do sono

• Foco na coleta de informações

• Melhor forma de entregar os resultados


Estudo de Caso

• Aplicativo para monitoramento de saúde e


qualidade do sono
Otimização de Modelo de Negócio

• Como entregar o resultado dos modelos

• Escoragem Batch
• Escoragem Online
• Geofencing
• Beacons

• Foco na Experiência do Usuário


Automação de Processos de Negócio

• O quê automatizar?
– Processos repetitivos
– Processos com pouco valor agregado
– Processos propensos a falhas operacionais
– Processos que unitariamente consomem pouco
tempo, mas que pelo volume tem impacto
relevante
Estudo de Caso

• Como é feita a detecção de buracos em rodovias


brasileiras?

• Um veículo faz a viagem filmando a rodovia

• Uma pessoa assiste ao video acelerado


marcando cada um dos buracos identificados
Serviços Analíticos

• Atualizar com os dados do Alê


Privacidade dos Dados

• Quais dados as empresas capturam?

• Quais dados o Google tem sobre você?

• Quais dados o Facebook tem sobre você?

• Quais dados os Bancos tem sobre você?

• Quais dados as Telecoms tem sobre você?

• Quais dados o governo tem sobre você?


Privacidade dos Dados

• Facebook
Estudo de Caso

• Modelo de Score do Cidadão na China


Análise de Casos de Alunos

• Seria possível fraudar o seu modelo?

• Como impedir ou mitigar essa possibilidade

• Seria possível automatizar totalmente o processo


que você pensou?

• Como melhorar a Experiência do Usuário com o


resultado do seu processo analítico?
Data Bobagem
Case 4 – Machine Learning – Vieses e Seus
Impactos
Thiago Russo
Thiago.russo@gmail.com
Como Verificar se o Modelo de Machine
Learning está Funcionando

• Análise de resultados

• Otimização de resultados

• Treinamento Continuado (Reinforced Learning)


Como Verificar se o Modelo de Machine
Learning está Funciondo

• Caso do Chatbot da Microsoft

• Atendimento de suporte de nível 1

• Treinamento continuado com feedback e textos


da internet

• Em 48 horas virou um troll racista e homofóbico


que precisou ser retirado do ar
Data Bobagem

• Exemplos nocivos de vieses na modelagem


Estudo de Caso

• Caso de Análise de Elegibilidade para Fiança


(Justiça)
Como Melhorar a Situação e Diminuir
os Vieses

• Leis para publicidade dos modelos públicos


utilizados

– Modelos
– Dados de Treinamento / Teste
Análise de Casos de Alunos

• Como verificar se seu caso tem algum viés

• Como diminuir o impacto do viés


Fundamentos de Ciência de Dados
Ciência de Dados pela Ótica de Negócio
Obrigado!
Thiago Russo
Thiago.russo@gmail.com
Fundamentos de Ciência de Dados
Implantação e Monitoramento

Thiago Russo
Thiago.russo@gmail.com
Validação e Implantação de Modelos
Case 1 – Modelagem de Concessão de
Crédito
Thiago Russo
Thiago.russo@gmail.com
O Novo: A Trindade
Dados, Descoberta, Implantação
Crie Análises que sejam fáceis
de consumir e disseminar
Como Saber se o Modelo Funcionou?

• Relatórios
• Safras
• Outros modelos
Alteração de Modelo de Negócio

• Como entregar o resultado dos modelos

• Escoragem Batch
• Escoragem Online
• Geofencing
• Beacons

• Foco na Experiência do Usuário


Principais Tendências em Concessão
de Crédito

• Cálculo de métricas comportamentais


derivadas
• Ciclo Analítico Mais Curto
– Maior proximidade do universo transacional
– Menor esforço operacional
• Maior Velocidade na Escoragem
– Maior Frequência
– Escoragem de Tempo Real
• Maior segmentação de público e aumento do
número de modelos
• Escoragem de crédito a cada transação
• Modelos mais precisos com as mesmas
técnicas analíticas (machine learning e deep
learning)
Estudo de Caso

• “All data is credit data…”

• Atua com crédito no segmento de baixa renda


com valor médio de USD 600 e apresenta uma
taxa de inadimplência 40% menor que a média de
mercado

• Além de variáveis tradicionais utiliza dados de


navegação na internet. Ex.: Tempo de leitura do
contrato de empréstimo, numero de páginas do
banco visitadas, formato do preenchimento do
formulário, etc
Gestão de Portfólio
Planejamento Estratégico

• O que acontece se diminuirmos o spread em


0,3% para ganhar mercado?

• Qual é impacto desta política de crédito em nossa


receita ou exposição em risco?

• O que acontece se o BACEN aumentar o juros


em 0,5% ao invés de 0,25% na próxima reunião
do Copom?

• Como simular e prever estas situações?


Arquitetura de sistemas e dados

ANOS 80 / 90
Arquitetura de sistemas e dados

Até Recentemente
Arquitetura de sistemas e dados

Atualmente
Tecnologias de Alta Performance

• Grid / Processamento Paralelizado

• In-Database e Hadoop - TERADATA, EMC,


HADOOP, ORACLE, etc

• In-Memory e Visualização – SAS LASER,


HADOOP, TERADATA, HANA, etc
Tecnologias de Alta Performance
GRID

Único Servidor para a Empresa Servidores Departamentais


Tecnologias de Alta Performance
GRID

• Confiabilidade
• Priorização de Processamento
Gerenciador • Distribuição de Processamento
Grid


• Processos Críticos na Baixa
Plataforma
• Utilização da Mesma Estrutura
para Laboratório e Processos
Produtivos
Tecnologias de Alta Performance
In-Database e Hadoop

Custo de Storage e
Memória nos EUA

• Em 2000 um GB de Disco custava $17


Hoje é menos de $0.07
• EM 2000 um GB de Memória Ram
custava $1800. Hoje é menos de $1
• Em 2009 um TB de RDBMS custava
$70K. Hoje é menos de $ 20K
Tecnologias de Alta Performance
In-Database e Hadoop

“Software Open Source que permite o processamento


distribuído de grandes volumes de dados por
agrupamentos de servidores commodities”
Não é banco de dados, é um file system com
processamento paralelo

HDFS – Armazena petabytes de dados com confiança


• Simples – Vários discos ~ Sem RAID
• Confiável e Redundante ~ SW espera falha do servidor
(Não há perda de dados)
Map Reduce – Permite o processamento distribuído
• Simples e escalável. Não aplicável a todas necessidades
Tecnologias de Alta Performance
In-Database e Hadoop

Econômico e Eficiente - distribui


os dados e o processamentos
através dos nós
Tecnologias de Alta Performance
In-Database e Hadoop

Confiável – remaneja as cópias


em caso de falhas no sistema

Alta disponibilidade e tolerância


a falhas independe de hardware

Down!
Tecnologias de Alta Performance
In-Database e Hadoop

Escalabilidade ilimitada

O armazenamento e
processamento são
redistribuídos dinamicamente
Tecnologias de Alta Performance
In-Database e Hadoop

Mapear (map)

Gerar key(chave),
value(valores)

Reduzir (reduce)

Associar valores com


mesma chave, valor
Dinâmica

• Processamento Massivo em Paralelo com MMs

– Processamento de tarefa paralelizável


• Contagem
• Sumarização

– Processamento de tarefa não paralelizável


• Ordenação
Tecnologias de Alta Performance
In-Memory e Visualização
Tecnologias de Alta Performance
In-Memory e Visualização
Tecnologias de Alta Performance
In-Memory e Visualização
Analytics – Abordagem Tradicional

Sistemas Data
transacionais Warehouse / Marts

OLTP OLAP

Transações
Análises e insights
de negócios
Ações de negócios

Armazenamento em Agregações Estruturas de dados pré-


tempo real em determinadas, de baixa
Transferência
estruturas batch para flexibilidade
transacionais de
estruturas Longos tempos de resposta,
dados analíticas de dados ruim para data discovery
Complexo para
obter relatórios Perda de detalhes
Grandes volumes Processamento demorado -
Alto impacto Espera para obtenção de
relatórios
Analytics Moderno – Em Tempo Real

Dados em memória

SAP

In-Memory
Computing

Não há agregação / Não há Data Staging / Não há Data Marts


Transações
Análises e insights
de negócios
Ações de negócios

Carga em memória Alta performance em Rápido, flexível e sem perda


em tempo real grandes volumes de granularidade de detalhes
Exemplo de Arquitetura
Big Data – Exemplos Reais

• Novos modelos de negócio – coletivamente, geram


economia mais forte

• O dado em si tem valor, companhias tem comercializado e


trocado dados entre elas, gerando maior conhecimento do
negócio, melhores soluções e maior conhecimento dos
clientes

A GE analisa em tempo as pás de todos os seus motores e turbinas,


possibilitando menor custo energético e planejamento preciso e preditivo
dos caros processos de manutenção das turbinas
Big Data – Exemplos Reais

• Análise das equipes de saúde, pacientes e necessidades do público


possibilitam o desenvolvimento de métodos e políticas que atendam
com maior eficiência e eficácia os cidadãos

• Big Data Genetics é um campo em desenvolvimento que possibilitará


tratamentos específicos para os pacientes - medicina personalizada,
conforme seus perfis e antecipação de doenças. O mapa genético fará
parte dos prontuários dos pacientes

Salvando vidas com Big Data


Analytics para prever as
condições e dos pacientes
Big Data – Exemplos Reais

• Cidades Inteligentes
– Qual a quantidade ideal de lixeiras para diminuir a
sujeira nas cidades?
– Como melhorar o tráfego?
– Como empregar melhor a presença policial?
Big Data – Exemplos Reais

• Alimentos
– O emprego de soluções IoT combinadas com Big Data
tem aumentado a quantidade e qualidade de alimentos,
bem como diminuído custos. Projetos inovadores
proporcionam safras com menor consumo de
agrotóxicos, menor uso de nutrientes não naturais

Análise de sensores geológicos


e imagens das plantações estão
impactando a produção de
alimento
Informações Implícitas

• Informações que podem ser obtidas pela


ausência de um determinado dado ou informação

• Muito cuidado com isso este método

• Assim que possível encontrar um dado ou


processo que valide suas premissas e insights
Estudo de Caso

• Que insights podem ser extraídos por uma


solicitação de informação de faixa de renda
Análise de Casos de Alunos

• Como implantar o seu modelo?

• Qual arquitetura seria necessária?

• Qual tecnologia seria necessária?


Perfis Organizacionais de Maturidade em
Ciência de Dados
Case 2 – Segmentação / Clusterização

Thiago Russo
Thiago.russo@gmail.com
Como Verificar se o Modelo de
Segmentação está Funcionando

• Análise de estabilidade de população

• Mudanças temporais

• Mudanças de perfil demográfico


Validação e Avaliação de Modelos

• Matriz de Confusão

• Indicadores estatísticos de qualidade de ajuste


Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Análise da regulamentação vigente

– Marco Civil da Internet


• De acordo com a lei, especificamente com o
Marco Civil da Internet, os brasileiros têm os
direitos de inviolabilidade da intimidade e da
vida privada

– GDPR – General Data Protection Regulation


(EU)
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Cliente VS Boa Vista Serviços AS

• Processo por Dano Moral 2013/0386285 com Recurso


Especial 1.419.697-RS pela BOA VISTA. 11/2014

• É legal a utilização de ratings de crédito


• Os dados utilizados no rating devem ser disponibilizados
para o consumidor
• Bureaus e provedores de dados estão sujeito a processos caso
sejam utilizados dados desatualizados ou equivocados
• Também são vetados o uso de informações excessivas ou
sensíveis que violem a sua honra e privacidade
Estudo de Caso

• Atua no crédito para empresas do varejo com


valores médios de USD 5000

• Monitora tendências no Facebook e Yelp para


dar crédito para empresas

• Consulta histórico de relacionamento com


PayPal, Amazon, SW de Imposto de Renda,
Yahoo, Ebay entre outros
Estudo de Caso

• Grindr – Site de relacionamentos GLBT

• Compartilhou informações sobre


– Preferência sexuais
– Status de HIV

• Com empresas parceiras para desenvolver


ofertas de produtos e serviços personalizados
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Case do Facebook e Cambridge Analytica

• O que aconteceu?

• Como aconteceu?
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Dificuldades de rastreamento e punição

• Falta de legislação e alinhamento internacional


sobre o tema

• Facilidade de migração de país para fugir das


regulamentações
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Onde está o dado que armazeno?

• Estou sujeito a quais jurisprudências e


regulamentações?
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Como melhorar a regulamentação?

• A legislação não está acompanhando a


velocidade da evolução tecnológica
Análise de Casos de Alunos

• Onde você iria capturar informações?

• Onde você iria armazenar as informações?

• Onde você iria processar as informações?


Integração de Ciência de Dados e Modelos
de Negócio
Case 3 – Modelos de Detecção de Fraude

Thiago Russo
Thiago.russo@gmail.com
Como Verificar se o Modelo de
Detecção de Fraude está Funcionando

• Detecção de Fraude é um jogo de gato e rato

• O fraudador não gasta mais esforço do que o


necessário
– Economicamente não faz sentido
– Se não está sendo pego, para quê sofisticar

• Migração de região ou indústria


Estudo de Caso

• Detecção de fraude em um ambiente com poucas


fraudes

• Detecção e rastreamento de fraude de cartões de


crédito no Japão
– Análise de redes sociais
Estudo de Caso

• Engenharia social

• O comportamento humano é um aliado na


detecção de fraude
– Preguiça
– Lei do menor esforço

• Exemplo do político pego na Lava Jato


– Depósitos fracionados
Estudo de Caso

• Engenharia social

• Análise de redes de relacionamento


– Dados temporais
– Dados georeferenciados
– Integração de diversas fontes de dados

• Caso da Lava Jato para provar onde há conluio e


combinação de resultados
Integração de Ciência de Dados e
Processos de Negócio

• Novos modelos de negócio

– Onde o Netflix é melhor que a locadora


tradicional

– Onde o Uber é melhor que o serviço de taxi

– Onde a Amazon é melhor que os outros


varejistas
Integração de Ciência de Dados e
Processos de Negócio

• Integração e encadeamento de modelos

• Foco na Experiência do Usuário


Estudo de Caso

• Aplicativo para monitoramento de saúde e


qualidade do sono

• Foco na coleta de informações

• Melhor forma de entregar os resultados


Estudo de Caso

• Aplicativo para monitoramento de saúde e


qualidade do sono
Otimização de Modelo de Negócio

• Como entregar o resultado dos modelos

• Escoragem Batch
• Escoragem Online
• Geofencing
• Beacons

• Foco na Experiência do Usuário


Automação de Processos de Negócio

• O quê automatizar?
– Processos repetitivos
– Processos com pouco valor agregado
– Processos propensos a falhas operacionais
– Processos que unitariamente consomem pouco
tempo, mas que pelo volume tem impacto
relevante
Estudo de Caso

• Como é feita a detecção de buracos em rodovias


brasileiras?

• Um veículo faz a viagem filmando a rodovia

• Uma pessoa assiste ao video acelerado


marcando cada um dos buracos identificados
Serviços Analíticos

• Atualizar com os dados do Alê


Privacidade dos Dados

• Quais dados as empresas capturam?

• Quais dados o Google tem sobre você?

• Quais dados o Facebook tem sobre você?

• Quais dados os Bancos tem sobre você?

• Quais dados as Telecoms tem sobre você?

• Quais dados o governo tem sobre você?


Privacidade dos Dados

• Facebook
Estudo de Caso

• Modelo de Score do Cidadão na China


Análise de Casos de Alunos

• Seria possível fraudar o seu modelo?

• Como impedir ou mitigar essa possibilidade

• Seria possível automatizar totalmente o processo


que você pensou?

• Como melhorar a Experiência do Usuário com o


resultado do seu processo analítico?
Data Bobagem
Case 4 – Machine Learning – Vieses e Seus
Impactos
Thiago Russo
Thiago.russo@gmail.com
Como Verificar se o Modelo de Machine
Learning está Funcionando

• Análise de resultados

• Otimização de resultados

• Treinamento Continuado (Reinforced Learning)


Como Verificar se o Modelo de Machine
Learning está Funciondo

• Caso do Chatbot da Microsoft

• Atendimento de suporte de nível 1

• Treinamento continuado com feedback e textos


da internet

• Em 48 horas virou um troll racista e homofóbico


que precisou ser retirado do ar
Data Bobagem

• Exemplos nocivos de vieses na modelagem


Estudo de Caso

• Caso de Análise de Elegibilidade para Fiança


(Justiça)
Como Melhorar a Situação e Diminuir
os Vieses

• Leis para publicidade dos modelos públicos


utilizados

– Modelos
– Dados de Treinamento / Teste
Análise de Casos de Alunos

• Como verificar se seu caso tem algum viés

• Como diminuir o impacto do viés


Fundamentos de Ciência de Dados
Ciência de Dados pela Ótica de Negócio
Obrigado!
Thiago Russo
Thiago.russo@gmail.com
Fundamentos de Ciência de Dados
Implantação e Monitoramento

Thiago Russo
Thiago.russo@gmail.com
Validação e Implantação de Modelos
Case 1 – Modelagem de Concessão de
Crédito
Thiago Russo
Thiago.russo@gmail.com
O Novo: A Trindade
Dados, Descoberta, Implantação
Crie Análises que sejam fáceis
de consumir e disseminar
Como Saber se o Modelo Funcionou?

• Relatórios
• Safras
• Outros modelos
Alteração de Modelo de Negócio

• Como entregar o resultado dos modelos

• Escoragem Batch
• Escoragem Online
• Geofencing
• Beacons

• Foco na Experiência do Usuário


Principais Tendências em Concessão
de Crédito

• Cálculo de métricas comportamentais


derivadas
• Ciclo Analítico Mais Curto
– Maior proximidade do universo transacional
– Menor esforço operacional
• Maior Velocidade na Escoragem
– Maior Frequência
– Escoragem de Tempo Real
• Maior segmentação de público e aumento do
número de modelos
• Escoragem de crédito a cada transação
• Modelos mais precisos com as mesmas
técnicas analíticas (machine learning e deep
learning)
Estudo de Caso

• “All data is credit data…”

• Atua com crédito no segmento de baixa renda


com valor médio de USD 600 e apresenta uma
taxa de inadimplência 40% menor que a média de
mercado

• Além de variáveis tradicionais utiliza dados de


navegação na internet. Ex.: Tempo de leitura do
contrato de empréstimo, numero de páginas do
banco visitadas, formato do preenchimento do
formulário, etc
Gestão de Portfólio
Planejamento Estratégico

• O que acontece se diminuirmos o spread em


0,3% para ganhar mercado?

• Qual é impacto desta política de crédito em nossa


receita ou exposição em risco?

• O que acontece se o BACEN aumentar o juros


em 0,5% ao invés de 0,25% na próxima reunião
do Copom?

• Como simular e prever estas situações?


Arquitetura de sistemas e dados

ANOS 80 / 90
Arquitetura de sistemas e dados

Até Recentemente
Arquitetura de sistemas e dados

Atualmente
Tecnologias de Alta Performance

• Grid / Processamento Paralelizado

• In-Database e Hadoop - TERADATA, EMC,


HADOOP, ORACLE, etc

• In-Memory e Visualização – SAS LASER,


HADOOP, TERADATA, HANA, etc
Tecnologias de Alta Performance
GRID

Único Servidor para a Empresa Servidores Departamentais


Tecnologias de Alta Performance
GRID

• Confiabilidade
• Priorização de Processamento
Gerenciador • Distribuição de Processamento
Grid


• Processos Críticos na Baixa
Plataforma
• Utilização da Mesma Estrutura
para Laboratório e Processos
Produtivos
Tecnologias de Alta Performance
In-Database e Hadoop

Custo de Storage e
Memória nos EUA

• Em 2000 um GB de Disco custava $17


Hoje é menos de $0.07
• EM 2000 um GB de Memória Ram
custava $1800. Hoje é menos de $1
• Em 2009 um TB de RDBMS custava
$70K. Hoje é menos de $ 20K
Tecnologias de Alta Performance
In-Database e Hadoop

“Software Open Source que permite o processamento


distribuído de grandes volumes de dados por
agrupamentos de servidores commodities”
Não é banco de dados, é um file system com
processamento paralelo

HDFS – Armazena petabytes de dados com confiança


• Simples – Vários discos ~ Sem RAID
• Confiável e Redundante ~ SW espera falha do servidor
(Não há perda de dados)
Map Reduce – Permite o processamento distribuído
• Simples e escalável. Não aplicável a todas necessidades
Tecnologias de Alta Performance
In-Database e Hadoop

Econômico e Eficiente - distribui


os dados e o processamentos
através dos nós
Tecnologias de Alta Performance
In-Database e Hadoop

Confiável – remaneja as cópias


em caso de falhas no sistema

Alta disponibilidade e tolerância


a falhas independe de hardware

Down!
Tecnologias de Alta Performance
In-Database e Hadoop

Escalabilidade ilimitada

O armazenamento e
processamento são
redistribuídos dinamicamente
Tecnologias de Alta Performance
In-Database e Hadoop

Mapear (map)

Gerar key(chave),
value(valores)

Reduzir (reduce)

Associar valores com


mesma chave, valor
Dinâmica

• Processamento Massivo em Paralelo com MMs

– Processamento de tarefa paralelizável


• Contagem
• Sumarização

– Processamento de tarefa não paralelizável


• Ordenação
Tecnologias de Alta Performance
In-Memory e Visualização
Tecnologias de Alta Performance
In-Memory e Visualização
Tecnologias de Alta Performance
In-Memory e Visualização
Analytics – Abordagem Tradicional

Sistemas Data
transacionais Warehouse / Marts

OLTP OLAP

Transações
Análises e insights
de negócios
Ações de negócios

Armazenamento em Agregações Estruturas de dados pré-


tempo real em determinadas, de baixa
Transferência
estruturas batch para flexibilidade
transacionais de
estruturas Longos tempos de resposta,
dados analíticas de dados ruim para data discovery
Complexo para
obter relatórios Perda de detalhes
Grandes volumes Processamento demorado -
Alto impacto Espera para obtenção de
relatórios
Analytics Moderno – Em Tempo Real

Dados em memória

SAP

In-Memory
Computing

Não há agregação / Não há Data Staging / Não há Data Marts


Transações
Análises e insights
de negócios
Ações de negócios

Carga em memória Alta performance em Rápido, flexível e sem perda


em tempo real grandes volumes de granularidade de detalhes
Exemplo de Arquitetura
Big Data – Exemplos Reais

• Novos modelos de negócio – coletivamente, geram


economia mais forte

• O dado em si tem valor, companhias tem comercializado e


trocado dados entre elas, gerando maior conhecimento do
negócio, melhores soluções e maior conhecimento dos
clientes

A GE analisa em tempo as pás de todos os seus motores e turbinas,


possibilitando menor custo energético e planejamento preciso e preditivo
dos caros processos de manutenção das turbinas
Big Data – Exemplos Reais

• Análise das equipes de saúde, pacientes e necessidades do público


possibilitam o desenvolvimento de métodos e políticas que atendam
com maior eficiência e eficácia os cidadãos

• Big Data Genetics é um campo em desenvolvimento que possibilitará


tratamentos específicos para os pacientes - medicina personalizada,
conforme seus perfis e antecipação de doenças. O mapa genético fará
parte dos prontuários dos pacientes

Salvando vidas com Big Data


Analytics para prever as
condições e dos pacientes
Big Data – Exemplos Reais

• Cidades Inteligentes
– Qual a quantidade ideal de lixeiras para diminuir a
sujeira nas cidades?
– Como melhorar o tráfego?
– Como empregar melhor a presença policial?
Big Data – Exemplos Reais

• Alimentos
– O emprego de soluções IoT combinadas com Big Data
tem aumentado a quantidade e qualidade de alimentos,
bem como diminuído custos. Projetos inovadores
proporcionam safras com menor consumo de
agrotóxicos, menor uso de nutrientes não naturais

Análise de sensores geológicos


e imagens das plantações estão
impactando a produção de
alimento
Informações Implícitas

• Informações que podem ser obtidas pela


ausência de um determinado dado ou informação

• Muito cuidado com isso este método

• Assim que possível encontrar um dado ou


processo que valide suas premissas e insights
Estudo de Caso

• Que insights podem ser extraídos por uma


solicitação de informação de faixa de renda
Análise de Casos de Alunos

• Como implantar o seu modelo?

• Qual arquitetura seria necessária?

• Qual tecnologia seria necessária?


Perfis Organizacionais de Maturidade em
Ciência de Dados
Case 2 – Segmentação / Clusterização

Thiago Russo
Thiago.russo@gmail.com
Como Verificar se o Modelo de
Segmentação está Funcionando

• Análise de estabilidade de população

• Mudanças temporais

• Mudanças de perfil demográfico


Validação e Avaliação de Modelos

• Matriz de Confusão

• Indicadores estatísticos de qualidade de ajuste


Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Análise da regulamentação vigente

– Marco Civil da Internet


• De acordo com a lei, especificamente com o
Marco Civil da Internet, os brasileiros têm os
direitos de inviolabilidade da intimidade e da
vida privada

– GDPR – General Data Protection Regulation


(EU)
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Cliente VS Boa Vista Serviços AS

• Processo por Dano Moral 2013/0386285 com Recurso


Especial 1.419.697-RS pela BOA VISTA. 11/2014

• É legal a utilização de ratings de crédito


• Os dados utilizados no rating devem ser disponibilizados
para o consumidor
• Bureaus e provedores de dados estão sujeito a processos caso
sejam utilizados dados desatualizados ou equivocados
• Também são vetados o uso de informações excessivas ou
sensíveis que violem a sua honra e privacidade
Estudo de Caso

• Atua no crédito para empresas do varejo com


valores médios de USD 5000

• Monitora tendências no Facebook e Yelp para


dar crédito para empresas

• Consulta histórico de relacionamento com


PayPal, Amazon, SW de Imposto de Renda,
Yahoo, Ebay entre outros
Estudo de Caso

• Grindr – Site de relacionamentos GLBT

• Compartilhou informações sobre


– Preferência sexuais
– Status de HIV

• Com empresas parceiras para desenvolver


ofertas de produtos e serviços personalizados
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Case do Facebook e Cambridge Analytica

• O que aconteceu?

• Como aconteceu?
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Dificuldades de rastreamento e punição

• Falta de legislação e alinhamento internacional


sobre o tema

• Facilidade de migração de país para fugir das


regulamentações
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Onde está o dado que armazeno?

• Estou sujeito a quais jurisprudências e


regulamentações?
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Como melhorar a regulamentação?

• A legislação não está acompanhando a


velocidade da evolução tecnológica
Análise de Casos de Alunos

• Onde você iria capturar informações?

• Onde você iria armazenar as informações?

• Onde você iria processar as informações?


Integração de Ciência de Dados e Modelos
de Negócio
Case 3 – Modelos de Detecção de Fraude

Thiago Russo
Thiago.russo@gmail.com
Como Verificar se o Modelo de
Detecção de Fraude está Funcionando

• Detecção de Fraude é um jogo de gato e rato

• O fraudador não gasta mais esforço do que o


necessário
– Economicamente não faz sentido
– Se não está sendo pego, para quê sofisticar

• Migração de região ou indústria


Estudo de Caso

• Detecção de fraude em um ambiente com poucas


fraudes

• Detecção e rastreamento de fraude de cartões de


crédito no Japão
– Análise de redes sociais
Estudo de Caso

• Engenharia social

• O comportamento humano é um aliado na


detecção de fraude
– Preguiça
– Lei do menor esforço

• Exemplo do político pego na Lava Jato


– Depósitos fracionados
Estudo de Caso

• Engenharia social

• Análise de redes de relacionamento


– Dados temporais
– Dados georeferenciados
– Integração de diversas fontes de dados

• Caso da Lava Jato para provar onde há conluio e


combinação de resultados
Integração de Ciência de Dados e
Processos de Negócio

• Novos modelos de negócio

– Onde o Netflix é melhor que a locadora


tradicional

– Onde o Uber é melhor que o serviço de taxi

– Onde a Amazon é melhor que os outros


varejistas
Integração de Ciência de Dados e
Processos de Negócio

• Integração e encadeamento de modelos

• Foco na Experiência do Usuário


Estudo de Caso

• Aplicativo para monitoramento de saúde e


qualidade do sono

• Foco na coleta de informações

• Melhor forma de entregar os resultados


Estudo de Caso

• Aplicativo para monitoramento de saúde e


qualidade do sono
Otimização de Modelo de Negócio

• Como entregar o resultado dos modelos

• Escoragem Batch
• Escoragem Online
• Geofencing
• Beacons

• Foco na Experiência do Usuário


Automação de Processos de Negócio

• O quê automatizar?
– Processos repetitivos
– Processos com pouco valor agregado
– Processos propensos a falhas operacionais
– Processos que unitariamente consomem pouco
tempo, mas que pelo volume tem impacto
relevante
Estudo de Caso

• Como é feita a detecção de buracos em rodovias


brasileiras?

• Um veículo faz a viagem filmando a rodovia

• Uma pessoa assiste ao video acelerado


marcando cada um dos buracos identificados
Serviços Analíticos

• Atualizar com os dados do Alê


Privacidade dos Dados

• Quais dados as empresas capturam?

• Quais dados o Google tem sobre você?

• Quais dados o Facebook tem sobre você?

• Quais dados os Bancos tem sobre você?

• Quais dados as Telecoms tem sobre você?

• Quais dados o governo tem sobre você?


Privacidade dos Dados

• Facebook
Estudo de Caso

• Modelo de Score do Cidadão na China


Análise de Casos de Alunos

• Seria possível fraudar o seu modelo?

• Como impedir ou mitigar essa possibilidade

• Seria possível automatizar totalmente o processo


que você pensou?

• Como melhorar a Experiência do Usuário com o


resultado do seu processo analítico?
Data Bobagem
Case 4 – Machine Learning – Vieses e Seus
Impactos
Thiago Russo
Thiago.russo@gmail.com
Como Verificar se o Modelo de Machine
Learning está Funcionando

• Análise de resultados

• Otimização de resultados

• Treinamento Continuado (Reinforced Learning)


Como Verificar se o Modelo de Machine
Learning está Funciondo

• Caso do Chatbot da Microsoft

• Atendimento de suporte de nível 1

• Treinamento continuado com feedback e textos


da internet

• Em 48 horas virou um troll racista e homofóbico


que precisou ser retirado do ar
Data Bobagem

• Exemplos nocivos de vieses na modelagem


Estudo de Caso

• Caso de Análise de Elegibilidade para Fiança


(Justiça)
Como Melhorar a Situação e Diminuir
os Vieses

• Leis para publicidade dos modelos públicos


utilizados

– Modelos
– Dados de Treinamento / Teste
Análise de Casos de Alunos

• Como verificar se seu caso tem algum viés

• Como diminuir o impacto do viés


Fundamentos de Ciência de Dados
Ciência de Dados pela Ótica de Negócio
Obrigado!
Thiago Russo
Thiago.russo@gmail.com
Fundamentos de Ciência de Dados
Implantação e Monitoramento

Thiago Russo
Thiago.russo@gmail.com
Validação e Implantação de Modelos
Case 1 – Modelagem de Concessão de
Crédito
Thiago Russo
Thiago.russo@gmail.com
O Novo: A Trindade
Dados, Descoberta, Implantação
Crie Análises que sejam fáceis
de consumir e disseminar
Como Saber se o Modelo Funcionou?

• Relatórios
• Safras
• Outros modelos
Alteração de Modelo de Negócio

• Como entregar o resultado dos modelos

• Escoragem Batch
• Escoragem Online
• Geofencing
• Beacons

• Foco na Experiência do Usuário


Principais Tendências em Concessão
de Crédito

• Cálculo de métricas comportamentais


derivadas
• Ciclo Analítico Mais Curto
– Maior proximidade do universo transacional
– Menor esforço operacional
• Maior Velocidade na Escoragem
– Maior Frequência
– Escoragem de Tempo Real
• Maior segmentação de público e aumento do
número de modelos
• Escoragem de crédito a cada transação
• Modelos mais precisos com as mesmas
técnicas analíticas (machine learning e deep
learning)
Estudo de Caso

• “All data is credit data…”

• Atua com crédito no segmento de baixa renda


com valor médio de USD 600 e apresenta uma
taxa de inadimplência 40% menor que a média de
mercado

• Além de variáveis tradicionais utiliza dados de


navegação na internet. Ex.: Tempo de leitura do
contrato de empréstimo, numero de páginas do
banco visitadas, formato do preenchimento do
formulário, etc
Gestão de Portfólio
Planejamento Estratégico

• O que acontece se diminuirmos o spread em


0,3% para ganhar mercado?

• Qual é impacto desta política de crédito em nossa


receita ou exposição em risco?

• O que acontece se o BACEN aumentar o juros


em 0,5% ao invés de 0,25% na próxima reunião
do Copom?

• Como simular e prever estas situações?


Arquitetura de sistemas e dados

ANOS 80 / 90
Arquitetura de sistemas e dados

Até Recentemente
Arquitetura de sistemas e dados

Atualmente
Tecnologias de Alta Performance

• Grid / Processamento Paralelizado

• In-Database e Hadoop - TERADATA, EMC,


HADOOP, ORACLE, etc

• In-Memory e Visualização – SAS LASER,


HADOOP, TERADATA, HANA, etc
Tecnologias de Alta Performance
GRID

Único Servidor para a Empresa Servidores Departamentais


Tecnologias de Alta Performance
GRID

• Confiabilidade
• Priorização de Processamento
Gerenciador • Distribuição de Processamento
Grid


• Processos Críticos na Baixa
Plataforma
• Utilização da Mesma Estrutura
para Laboratório e Processos
Produtivos
Tecnologias de Alta Performance
In-Database e Hadoop

Custo de Storage e
Memória nos EUA

• Em 2000 um GB de Disco custava $17


Hoje é menos de $0.07
• EM 2000 um GB de Memória Ram
custava $1800. Hoje é menos de $1
• Em 2009 um TB de RDBMS custava
$70K. Hoje é menos de $ 20K
Tecnologias de Alta Performance
In-Database e Hadoop

“Software Open Source que permite o processamento


distribuído de grandes volumes de dados por
agrupamentos de servidores commodities”
Não é banco de dados, é um file system com
processamento paralelo

HDFS – Armazena petabytes de dados com confiança


• Simples – Vários discos ~ Sem RAID
• Confiável e Redundante ~ SW espera falha do servidor
(Não há perda de dados)
Map Reduce – Permite o processamento distribuído
• Simples e escalável. Não aplicável a todas necessidades
Tecnologias de Alta Performance
In-Database e Hadoop

Econômico e Eficiente - distribui


os dados e o processamentos
através dos nós
Tecnologias de Alta Performance
In-Database e Hadoop

Confiável – remaneja as cópias


em caso de falhas no sistema

Alta disponibilidade e tolerância


a falhas independe de hardware

Down!
Tecnologias de Alta Performance
In-Database e Hadoop

Escalabilidade ilimitada

O armazenamento e
processamento são
redistribuídos dinamicamente
Tecnologias de Alta Performance
In-Database e Hadoop

Mapear (map)

Gerar key(chave),
value(valores)

Reduzir (reduce)

Associar valores com


mesma chave, valor
Dinâmica

• Processamento Massivo em Paralelo com MMs

– Processamento de tarefa paralelizável


• Contagem
• Sumarização

– Processamento de tarefa não paralelizável


• Ordenação
Tecnologias de Alta Performance
In-Memory e Visualização
Tecnologias de Alta Performance
In-Memory e Visualização
Tecnologias de Alta Performance
In-Memory e Visualização
Analytics – Abordagem Tradicional

Sistemas Data
transacionais Warehouse / Marts

OLTP OLAP

Transações
Análises e insights
de negócios
Ações de negócios

Armazenamento em Agregações Estruturas de dados pré-


tempo real em determinadas, de baixa
Transferência
estruturas batch para flexibilidade
transacionais de
estruturas Longos tempos de resposta,
dados analíticas de dados ruim para data discovery
Complexo para
obter relatórios Perda de detalhes
Grandes volumes Processamento demorado -
Alto impacto Espera para obtenção de
relatórios
Analytics Moderno – Em Tempo Real

Dados em memória

SAP

In-Memory
Computing

Não há agregação / Não há Data Staging / Não há Data Marts


Transações
Análises e insights
de negócios
Ações de negócios

Carga em memória Alta performance em Rápido, flexível e sem perda


em tempo real grandes volumes de granularidade de detalhes
Exemplo de Arquitetura
Big Data – Exemplos Reais

• Novos modelos de negócio – coletivamente, geram


economia mais forte

• O dado em si tem valor, companhias tem comercializado e


trocado dados entre elas, gerando maior conhecimento do
negócio, melhores soluções e maior conhecimento dos
clientes

A GE analisa em tempo as pás de todos os seus motores e turbinas,


possibilitando menor custo energético e planejamento preciso e preditivo
dos caros processos de manutenção das turbinas
Big Data – Exemplos Reais

• Análise das equipes de saúde, pacientes e necessidades do público


possibilitam o desenvolvimento de métodos e políticas que atendam
com maior eficiência e eficácia os cidadãos

• Big Data Genetics é um campo em desenvolvimento que possibilitará


tratamentos específicos para os pacientes - medicina personalizada,
conforme seus perfis e antecipação de doenças. O mapa genético fará
parte dos prontuários dos pacientes

Salvando vidas com Big Data


Analytics para prever as
condições e dos pacientes
Big Data – Exemplos Reais

• Cidades Inteligentes
– Qual a quantidade ideal de lixeiras para diminuir a
sujeira nas cidades?
– Como melhorar o tráfego?
– Como empregar melhor a presença policial?
Big Data – Exemplos Reais

• Alimentos
– O emprego de soluções IoT combinadas com Big Data
tem aumentado a quantidade e qualidade de alimentos,
bem como diminuído custos. Projetos inovadores
proporcionam safras com menor consumo de
agrotóxicos, menor uso de nutrientes não naturais

Análise de sensores geológicos


e imagens das plantações estão
impactando a produção de
alimento
Informações Implícitas

• Informações que podem ser obtidas pela


ausência de um determinado dado ou informação

• Muito cuidado com isso este método

• Assim que possível encontrar um dado ou


processo que valide suas premissas e insights
Estudo de Caso

• Que insights podem ser extraídos por uma


solicitação de informação de faixa de renda
Análise de Casos de Alunos

• Como implantar o seu modelo?

• Qual arquitetura seria necessária?

• Qual tecnologia seria necessária?


Perfis Organizacionais de Maturidade em
Ciência de Dados
Case 2 – Segmentação / Clusterização

Thiago Russo
Thiago.russo@gmail.com
Como Verificar se o Modelo de
Segmentação está Funcionando

• Análise de estabilidade de população

• Mudanças temporais

• Mudanças de perfil demográfico


Validação e Avaliação de Modelos

• Matriz de Confusão

• Indicadores estatísticos de qualidade de ajuste


Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Análise da regulamentação vigente

– Marco Civil da Internet


• De acordo com a lei, especificamente com o
Marco Civil da Internet, os brasileiros têm os
direitos de inviolabilidade da intimidade e da
vida privada

– GDPR – General Data Protection Regulation


(EU)
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Cliente VS Boa Vista Serviços AS

• Processo por Dano Moral 2013/0386285 com Recurso


Especial 1.419.697-RS pela BOA VISTA. 11/2014

• É legal a utilização de ratings de crédito


• Os dados utilizados no rating devem ser disponibilizados
para o consumidor
• Bureaus e provedores de dados estão sujeito a processos caso
sejam utilizados dados desatualizados ou equivocados
• Também são vetados o uso de informações excessivas ou
sensíveis que violem a sua honra e privacidade
Estudo de Caso

• Atua no crédito para empresas do varejo com


valores médios de USD 5000

• Monitora tendências no Facebook e Yelp para


dar crédito para empresas

• Consulta histórico de relacionamento com


PayPal, Amazon, SW de Imposto de Renda,
Yahoo, Ebay entre outros
Estudo de Caso

• Grindr – Site de relacionamentos GLBT

• Compartilhou informações sobre


– Preferência sexuais
– Status de HIV

• Com empresas parceiras para desenvolver


ofertas de produtos e serviços personalizados
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Case do Facebook e Cambridge Analytica

• O que aconteceu?

• Como aconteceu?
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Dificuldades de rastreamento e punição

• Falta de legislação e alinhamento internacional


sobre o tema

• Facilidade de migração de país para fugir das


regulamentações
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Onde está o dado que armazeno?

• Estou sujeito a quais jurisprudências e


regulamentações?
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Como melhorar a regulamentação?

• A legislação não está acompanhando a


velocidade da evolução tecnológica
Análise de Casos de Alunos

• Onde você iria capturar informações?

• Onde você iria armazenar as informações?

• Onde você iria processar as informações?


Integração de Ciência de Dados e Modelos
de Negócio
Case 3 – Modelos de Detecção de Fraude

Thiago Russo
Thiago.russo@gmail.com
Como Verificar se o Modelo de
Detecção de Fraude está Funcionando

• Detecção de Fraude é um jogo de gato e rato

• O fraudador não gasta mais esforço do que o


necessário
– Economicamente não faz sentido
– Se não está sendo pego, para quê sofisticar

• Migração de região ou indústria


Estudo de Caso

• Detecção de fraude em um ambiente com poucas


fraudes

• Detecção e rastreamento de fraude de cartões de


crédito no Japão
– Análise de redes sociais
Estudo de Caso

• Engenharia social

• O comportamento humano é um aliado na


detecção de fraude
– Preguiça
– Lei do menor esforço

• Exemplo do político pego na Lava Jato


– Depósitos fracionados
Estudo de Caso

• Engenharia social

• Análise de redes de relacionamento


– Dados temporais
– Dados georeferenciados
– Integração de diversas fontes de dados

• Caso da Lava Jato para provar onde há conluio e


combinação de resultados
Integração de Ciência de Dados e
Processos de Negócio

• Novos modelos de negócio

– Onde o Netflix é melhor que a locadora


tradicional

– Onde o Uber é melhor que o serviço de taxi

– Onde a Amazon é melhor que os outros


varejistas
Integração de Ciência de Dados e
Processos de Negócio

• Integração e encadeamento de modelos

• Foco na Experiência do Usuário


Estudo de Caso

• Aplicativo para monitoramento de saúde e


qualidade do sono

• Foco na coleta de informações

• Melhor forma de entregar os resultados


Estudo de Caso

• Aplicativo para monitoramento de saúde e


qualidade do sono
Otimização de Modelo de Negócio

• Como entregar o resultado dos modelos

• Escoragem Batch
• Escoragem Online
• Geofencing
• Beacons

• Foco na Experiência do Usuário


Automação de Processos de Negócio

• O quê automatizar?
– Processos repetitivos
– Processos com pouco valor agregado
– Processos propensos a falhas operacionais
– Processos que unitariamente consomem pouco
tempo, mas que pelo volume tem impacto
relevante
Estudo de Caso

• Como é feita a detecção de buracos em rodovias


brasileiras?

• Um veículo faz a viagem filmando a rodovia

• Uma pessoa assiste ao video acelerado


marcando cada um dos buracos identificados
Serviços Analíticos

• Atualizar com os dados do Alê


Privacidade dos Dados

• Quais dados as empresas capturam?

• Quais dados o Google tem sobre você?

• Quais dados o Facebook tem sobre você?

• Quais dados os Bancos tem sobre você?

• Quais dados as Telecoms tem sobre você?

• Quais dados o governo tem sobre você?


Privacidade dos Dados

• Facebook
Estudo de Caso

• Modelo de Score do Cidadão na China


Análise de Casos de Alunos

• Seria possível fraudar o seu modelo?

• Como impedir ou mitigar essa possibilidade

• Seria possível automatizar totalmente o processo


que você pensou?

• Como melhorar a Experiência do Usuário com o


resultado do seu processo analítico?
Data Bobagem
Case 4 – Machine Learning – Vieses e Seus
Impactos
Thiago Russo
Thiago.russo@gmail.com
Como Verificar se o Modelo de Machine
Learning está Funcionando

• Análise de resultados

• Otimização de resultados

• Treinamento Continuado (Reinforced Learning)


Como Verificar se o Modelo de Machine
Learning está Funciondo

• Caso do Chatbot da Microsoft

• Atendimento de suporte de nível 1

• Treinamento continuado com feedback e textos


da internet

• Em 48 horas virou um troll racista e homofóbico


que precisou ser retirado do ar
Data Bobagem

• Exemplos nocivos de vieses na modelagem


Estudo de Caso

• Caso de Análise de Elegibilidade para Fiança


(Justiça)
Como Melhorar a Situação e Diminuir
os Vieses

• Leis para publicidade dos modelos públicos


utilizados

– Modelos
– Dados de Treinamento / Teste
Análise de Casos de Alunos

• Como verificar se seu caso tem algum viés

• Como diminuir o impacto do viés


Fundamentos de Ciência de Dados
Ciência de Dados pela Ótica de Negócio
Obrigado!
Thiago Russo
Thiago.russo@gmail.com
Fundamentos de Ciência de Dados
Implantação e Monitoramento

Thiago Russo
Thiago.russo@gmail.com
Validação e Implantação de Modelos
Case 1 – Modelagem de Concessão de
Crédito
Thiago Russo
Thiago.russo@gmail.com
O Novo: A Trindade
Dados, Descoberta, Implantação
Crie Análises que sejam fáceis
de consumir e disseminar
Como Saber se o Modelo Funcionou?

• Relatórios
• Safras
• Outros modelos
Alteração de Modelo de Negócio

• Como entregar o resultado dos modelos

• Escoragem Batch
• Escoragem Online
• Geofencing
• Beacons

• Foco na Experiência do Usuário


Principais Tendências em Concessão
de Crédito

• Cálculo de métricas comportamentais


derivadas
• Ciclo Analítico Mais Curto
– Maior proximidade do universo transacional
– Menor esforço operacional
• Maior Velocidade na Escoragem
– Maior Frequência
– Escoragem de Tempo Real
• Maior segmentação de público e aumento do
número de modelos
• Escoragem de crédito a cada transação
• Modelos mais precisos com as mesmas
técnicas analíticas (machine learning e deep
learning)
Estudo de Caso

• “All data is credit data…”

• Atua com crédito no segmento de baixa renda


com valor médio de USD 600 e apresenta uma
taxa de inadimplência 40% menor que a média de
mercado

• Além de variáveis tradicionais utiliza dados de


navegação na internet. Ex.: Tempo de leitura do
contrato de empréstimo, numero de páginas do
banco visitadas, formato do preenchimento do
formulário, etc
Gestão de Portfólio
Planejamento Estratégico

• O que acontece se diminuirmos o spread em


0,3% para ganhar mercado?

• Qual é impacto desta política de crédito em nossa


receita ou exposição em risco?

• O que acontece se o BACEN aumentar o juros


em 0,5% ao invés de 0,25% na próxima reunião
do Copom?

• Como simular e prever estas situações?


Arquitetura de sistemas e dados

ANOS 80 / 90
Arquitetura de sistemas e dados

Até Recentemente
Arquitetura de sistemas e dados

Atualmente
Tecnologias de Alta Performance

• Grid / Processamento Paralelizado

• In-Database e Hadoop - TERADATA, EMC,


HADOOP, ORACLE, etc

• In-Memory e Visualização – SAS LASER,


HADOOP, TERADATA, HANA, etc
Tecnologias de Alta Performance
GRID

Único Servidor para a Empresa Servidores Departamentais


Tecnologias de Alta Performance
GRID

• Confiabilidade
• Priorização de Processamento
Gerenciador • Distribuição de Processamento
Grid


• Processos Críticos na Baixa
Plataforma
• Utilização da Mesma Estrutura
para Laboratório e Processos
Produtivos
Tecnologias de Alta Performance
In-Database e Hadoop

Custo de Storage e
Memória nos EUA

• Em 2000 um GB de Disco custava $17


Hoje é menos de $0.07
• EM 2000 um GB de Memória Ram
custava $1800. Hoje é menos de $1
• Em 2009 um TB de RDBMS custava
$70K. Hoje é menos de $ 20K
Tecnologias de Alta Performance
In-Database e Hadoop

“Software Open Source que permite o processamento


distribuído de grandes volumes de dados por
agrupamentos de servidores commodities”
Não é banco de dados, é um file system com
processamento paralelo

HDFS – Armazena petabytes de dados com confiança


• Simples – Vários discos ~ Sem RAID
• Confiável e Redundante ~ SW espera falha do servidor
(Não há perda de dados)
Map Reduce – Permite o processamento distribuído
• Simples e escalável. Não aplicável a todas necessidades
Tecnologias de Alta Performance
In-Database e Hadoop

Econômico e Eficiente - distribui


os dados e o processamentos
através dos nós
Tecnologias de Alta Performance
In-Database e Hadoop

Confiável – remaneja as cópias


em caso de falhas no sistema

Alta disponibilidade e tolerância


a falhas independe de hardware

Down!
Tecnologias de Alta Performance
In-Database e Hadoop

Escalabilidade ilimitada

O armazenamento e
processamento são
redistribuídos dinamicamente
Tecnologias de Alta Performance
In-Database e Hadoop

Mapear (map)

Gerar key(chave),
value(valores)

Reduzir (reduce)

Associar valores com


mesma chave, valor
Dinâmica

• Processamento Massivo em Paralelo com MMs

– Processamento de tarefa paralelizável


• Contagem
• Sumarização

– Processamento de tarefa não paralelizável


• Ordenação
Tecnologias de Alta Performance
In-Memory e Visualização
Tecnologias de Alta Performance
In-Memory e Visualização
Tecnologias de Alta Performance
In-Memory e Visualização
Analytics – Abordagem Tradicional

Sistemas Data
transacionais Warehouse / Marts

OLTP OLAP

Transações
Análises e insights
de negócios
Ações de negócios

Armazenamento em Agregações Estruturas de dados pré-


tempo real em determinadas, de baixa
Transferência
estruturas batch para flexibilidade
transacionais de
estruturas Longos tempos de resposta,
dados analíticas de dados ruim para data discovery
Complexo para
obter relatórios Perda de detalhes
Grandes volumes Processamento demorado -
Alto impacto Espera para obtenção de
relatórios
Analytics Moderno – Em Tempo Real

Dados em memória

SAP

In-Memory
Computing

Não há agregação / Não há Data Staging / Não há Data Marts


Transações
Análises e insights
de negócios
Ações de negócios

Carga em memória Alta performance em Rápido, flexível e sem perda


em tempo real grandes volumes de granularidade de detalhes
Exemplo de Arquitetura
Big Data – Exemplos Reais

• Novos modelos de negócio – coletivamente, geram


economia mais forte

• O dado em si tem valor, companhias tem comercializado e


trocado dados entre elas, gerando maior conhecimento do
negócio, melhores soluções e maior conhecimento dos
clientes

A GE analisa em tempo as pás de todos os seus motores e turbinas,


possibilitando menor custo energético e planejamento preciso e preditivo
dos caros processos de manutenção das turbinas
Big Data – Exemplos Reais

• Análise das equipes de saúde, pacientes e necessidades do público


possibilitam o desenvolvimento de métodos e políticas que atendam
com maior eficiência e eficácia os cidadãos

• Big Data Genetics é um campo em desenvolvimento que possibilitará


tratamentos específicos para os pacientes - medicina personalizada,
conforme seus perfis e antecipação de doenças. O mapa genético fará
parte dos prontuários dos pacientes

Salvando vidas com Big Data


Analytics para prever as
condições e dos pacientes
Big Data – Exemplos Reais

• Cidades Inteligentes
– Qual a quantidade ideal de lixeiras para diminuir a
sujeira nas cidades?
– Como melhorar o tráfego?
– Como empregar melhor a presença policial?
Big Data – Exemplos Reais

• Alimentos
– O emprego de soluções IoT combinadas com Big Data
tem aumentado a quantidade e qualidade de alimentos,
bem como diminuído custos. Projetos inovadores
proporcionam safras com menor consumo de
agrotóxicos, menor uso de nutrientes não naturais

Análise de sensores geológicos


e imagens das plantações estão
impactando a produção de
alimento
Informações Implícitas

• Informações que podem ser obtidas pela


ausência de um determinado dado ou informação

• Muito cuidado com isso este método

• Assim que possível encontrar um dado ou


processo que valide suas premissas e insights
Estudo de Caso

• Que insights podem ser extraídos por uma


solicitação de informação de faixa de renda
Análise de Casos de Alunos

• Como implantar o seu modelo?

• Qual arquitetura seria necessária?

• Qual tecnologia seria necessária?


Perfis Organizacionais de Maturidade em
Ciência de Dados
Case 2 – Segmentação / Clusterização

Thiago Russo
Thiago.russo@gmail.com
Como Verificar se o Modelo de
Segmentação está Funcionando

• Análise de estabilidade de população

• Mudanças temporais

• Mudanças de perfil demográfico


Validação e Avaliação de Modelos

• Matriz de Confusão

• Indicadores estatísticos de qualidade de ajuste


Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Análise da regulamentação vigente

– Marco Civil da Internet


• De acordo com a lei, especificamente com o
Marco Civil da Internet, os brasileiros têm os
direitos de inviolabilidade da intimidade e da
vida privada

– GDPR – General Data Protection Regulation


(EU)
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Cliente VS Boa Vista Serviços AS

• Processo por Dano Moral 2013/0386285 com Recurso


Especial 1.419.697-RS pela BOA VISTA. 11/2014

• É legal a utilização de ratings de crédito


• Os dados utilizados no rating devem ser disponibilizados
para o consumidor
• Bureaus e provedores de dados estão sujeito a processos caso
sejam utilizados dados desatualizados ou equivocados
• Também são vetados o uso de informações excessivas ou
sensíveis que violem a sua honra e privacidade
Estudo de Caso

• Atua no crédito para empresas do varejo com


valores médios de USD 5000

• Monitora tendências no Facebook e Yelp para


dar crédito para empresas

• Consulta histórico de relacionamento com


PayPal, Amazon, SW de Imposto de Renda,
Yahoo, Ebay entre outros
Estudo de Caso

• Grindr – Site de relacionamentos GLBT

• Compartilhou informações sobre


– Preferência sexuais
– Status de HIV

• Com empresas parceiras para desenvolver


ofertas de produtos e serviços personalizados
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Case do Facebook e Cambridge Analytica

• O que aconteceu?

• Como aconteceu?
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Dificuldades de rastreamento e punição

• Falta de legislação e alinhamento internacional


sobre o tema

• Facilidade de migração de país para fugir das


regulamentações
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Onde está o dado que armazeno?

• Estou sujeito a quais jurisprudências e


regulamentações?
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Como melhorar a regulamentação?

• A legislação não está acompanhando a


velocidade da evolução tecnológica
Análise de Casos de Alunos

• Onde você iria capturar informações?

• Onde você iria armazenar as informações?

• Onde você iria processar as informações?


Integração de Ciência de Dados e Modelos
de Negócio
Case 3 – Modelos de Detecção de Fraude

Thiago Russo
Thiago.russo@gmail.com
Como Verificar se o Modelo de
Detecção de Fraude está Funcionando

• Detecção de Fraude é um jogo de gato e rato

• O fraudador não gasta mais esforço do que o


necessário
– Economicamente não faz sentido
– Se não está sendo pego, para quê sofisticar

• Migração de região ou indústria


Estudo de Caso

• Detecção de fraude em um ambiente com poucas


fraudes

• Detecção e rastreamento de fraude de cartões de


crédito no Japão
– Análise de redes sociais
Estudo de Caso

• Engenharia social

• O comportamento humano é um aliado na


detecção de fraude
– Preguiça
– Lei do menor esforço

• Exemplo do político pego na Lava Jato


– Depósitos fracionados
Estudo de Caso

• Engenharia social

• Análise de redes de relacionamento


– Dados temporais
– Dados georeferenciados
– Integração de diversas fontes de dados

• Caso da Lava Jato para provar onde há conluio e


combinação de resultados
Integração de Ciência de Dados e
Processos de Negócio

• Novos modelos de negócio

– Onde o Netflix é melhor que a locadora


tradicional

– Onde o Uber é melhor que o serviço de taxi

– Onde a Amazon é melhor que os outros


varejistas
Integração de Ciência de Dados e
Processos de Negócio

• Integração e encadeamento de modelos

• Foco na Experiência do Usuário


Estudo de Caso

• Aplicativo para monitoramento de saúde e


qualidade do sono

• Foco na coleta de informações

• Melhor forma de entregar os resultados


Estudo de Caso

• Aplicativo para monitoramento de saúde e


qualidade do sono
Otimização de Modelo de Negócio

• Como entregar o resultado dos modelos

• Escoragem Batch
• Escoragem Online
• Geofencing
• Beacons

• Foco na Experiência do Usuário


Automação de Processos de Negócio

• O quê automatizar?
– Processos repetitivos
– Processos com pouco valor agregado
– Processos propensos a falhas operacionais
– Processos que unitariamente consomem pouco
tempo, mas que pelo volume tem impacto
relevante
Estudo de Caso

• Como é feita a detecção de buracos em rodovias


brasileiras?

• Um veículo faz a viagem filmando a rodovia

• Uma pessoa assiste ao video acelerado


marcando cada um dos buracos identificados
Serviços Analíticos

• Atualizar com os dados do Alê


Privacidade dos Dados

• Quais dados as empresas capturam?

• Quais dados o Google tem sobre você?

• Quais dados o Facebook tem sobre você?

• Quais dados os Bancos tem sobre você?

• Quais dados as Telecoms tem sobre você?

• Quais dados o governo tem sobre você?


Privacidade dos Dados

• Facebook
Estudo de Caso

• Modelo de Score do Cidadão na China


Análise de Casos de Alunos

• Seria possível fraudar o seu modelo?

• Como impedir ou mitigar essa possibilidade

• Seria possível automatizar totalmente o processo


que você pensou?

• Como melhorar a Experiência do Usuário com o


resultado do seu processo analítico?
Data Bobagem
Case 4 – Machine Learning – Vieses e Seus
Impactos
Thiago Russo
Thiago.russo@gmail.com
Como Verificar se o Modelo de Machine
Learning está Funcionando

• Análise de resultados

• Otimização de resultados

• Treinamento Continuado (Reinforced Learning)


Como Verificar se o Modelo de Machine
Learning está Funciondo

• Caso do Chatbot da Microsoft

• Atendimento de suporte de nível 1

• Treinamento continuado com feedback e textos


da internet

• Em 48 horas virou um troll racista e homofóbico


que precisou ser retirado do ar
Data Bobagem

• Exemplos nocivos de vieses na modelagem


Estudo de Caso

• Caso de Análise de Elegibilidade para Fiança


(Justiça)
Como Melhorar a Situação e Diminuir
os Vieses

• Leis para publicidade dos modelos públicos


utilizados

– Modelos
– Dados de Treinamento / Teste
Análise de Casos de Alunos

• Como verificar se seu caso tem algum viés

• Como diminuir o impacto do viés


Fundamentos de Ciência de Dados
Ciência de Dados pela Ótica de Negócio
Obrigado!
Thiago Russo
Thiago.russo@gmail.com
Fundamentos de Ciência de Dados
Implantação e Monitoramento

Thiago Russo
Thiago.russo@gmail.com
Validação e Implantação de Modelos
Case 1 – Modelagem de Concessão de
Crédito
Thiago Russo
Thiago.russo@gmail.com
O Novo: A Trindade
Dados, Descoberta, Implantação
Crie Análises que sejam fáceis
de consumir e disseminar
Como Saber se o Modelo Funcionou?

• Relatórios
• Safras
• Outros modelos
Alteração de Modelo de Negócio

• Como entregar o resultado dos modelos

• Escoragem Batch
• Escoragem Online
• Geofencing
• Beacons

• Foco na Experiência do Usuário


Principais Tendências em Concessão
de Crédito

• Cálculo de métricas comportamentais


derivadas
• Ciclo Analítico Mais Curto
– Maior proximidade do universo transacional
– Menor esforço operacional
• Maior Velocidade na Escoragem
– Maior Frequência
– Escoragem de Tempo Real
• Maior segmentação de público e aumento do
número de modelos
• Escoragem de crédito a cada transação
• Modelos mais precisos com as mesmas
técnicas analíticas (machine learning e deep
learning)
Estudo de Caso

• “All data is credit data…”

• Atua com crédito no segmento de baixa renda


com valor médio de USD 600 e apresenta uma
taxa de inadimplência 40% menor que a média de
mercado

• Além de variáveis tradicionais utiliza dados de


navegação na internet. Ex.: Tempo de leitura do
contrato de empréstimo, numero de páginas do
banco visitadas, formato do preenchimento do
formulário, etc
Gestão de Portfólio
Planejamento Estratégico

• O que acontece se diminuirmos o spread em


0,3% para ganhar mercado?

• Qual é impacto desta política de crédito em nossa


receita ou exposição em risco?

• O que acontece se o BACEN aumentar o juros


em 0,5% ao invés de 0,25% na próxima reunião
do Copom?

• Como simular e prever estas situações?


Arquitetura de sistemas e dados

ANOS 80 / 90
Arquitetura de sistemas e dados

Até Recentemente
Arquitetura de sistemas e dados

Atualmente
Tecnologias de Alta Performance

• Grid / Processamento Paralelizado

• In-Database e Hadoop - TERADATA, EMC,


HADOOP, ORACLE, etc

• In-Memory e Visualização – SAS LASER,


HADOOP, TERADATA, HANA, etc
Tecnologias de Alta Performance
GRID

Único Servidor para a Empresa Servidores Departamentais


Tecnologias de Alta Performance
GRID

• Confiabilidade
• Priorização de Processamento
Gerenciador • Distribuição de Processamento
Grid


• Processos Críticos na Baixa
Plataforma
• Utilização da Mesma Estrutura
para Laboratório e Processos
Produtivos
Tecnologias de Alta Performance
In-Database e Hadoop

Custo de Storage e
Memória nos EUA

• Em 2000 um GB de Disco custava $17


Hoje é menos de $0.07
• EM 2000 um GB de Memória Ram
custava $1800. Hoje é menos de $1
• Em 2009 um TB de RDBMS custava
$70K. Hoje é menos de $ 20K
Tecnologias de Alta Performance
In-Database e Hadoop

“Software Open Source que permite o processamento


distribuído de grandes volumes de dados por
agrupamentos de servidores commodities”
Não é banco de dados, é um file system com
processamento paralelo

HDFS – Armazena petabytes de dados com confiança


• Simples – Vários discos ~ Sem RAID
• Confiável e Redundante ~ SW espera falha do servidor
(Não há perda de dados)
Map Reduce – Permite o processamento distribuído
• Simples e escalável. Não aplicável a todas necessidades
Tecnologias de Alta Performance
In-Database e Hadoop

Econômico e Eficiente - distribui


os dados e o processamentos
através dos nós
Tecnologias de Alta Performance
In-Database e Hadoop

Confiável – remaneja as cópias


em caso de falhas no sistema

Alta disponibilidade e tolerância


a falhas independe de hardware

Down!
Tecnologias de Alta Performance
In-Database e Hadoop

Escalabilidade ilimitada

O armazenamento e
processamento são
redistribuídos dinamicamente
Tecnologias de Alta Performance
In-Database e Hadoop

Mapear (map)

Gerar key(chave),
value(valores)

Reduzir (reduce)

Associar valores com


mesma chave, valor
Dinâmica

• Processamento Massivo em Paralelo com MMs

– Processamento de tarefa paralelizável


• Contagem
• Sumarização

– Processamento de tarefa não paralelizável


• Ordenação
Tecnologias de Alta Performance
In-Memory e Visualização
Tecnologias de Alta Performance
In-Memory e Visualização
Tecnologias de Alta Performance
In-Memory e Visualização
Analytics – Abordagem Tradicional

Sistemas Data
transacionais Warehouse / Marts

OLTP OLAP

Transações
Análises e insights
de negócios
Ações de negócios

Armazenamento em Agregações Estruturas de dados pré-


tempo real em determinadas, de baixa
Transferência
estruturas batch para flexibilidade
transacionais de
estruturas Longos tempos de resposta,
dados analíticas de dados ruim para data discovery
Complexo para
obter relatórios Perda de detalhes
Grandes volumes Processamento demorado -
Alto impacto Espera para obtenção de
relatórios
Analytics Moderno – Em Tempo Real

Dados em memória

SAP

In-Memory
Computing

Não há agregação / Não há Data Staging / Não há Data Marts


Transações
Análises e insights
de negócios
Ações de negócios

Carga em memória Alta performance em Rápido, flexível e sem perda


em tempo real grandes volumes de granularidade de detalhes
Exemplo de Arquitetura
Big Data – Exemplos Reais

• Novos modelos de negócio – coletivamente, geram


economia mais forte

• O dado em si tem valor, companhias tem comercializado e


trocado dados entre elas, gerando maior conhecimento do
negócio, melhores soluções e maior conhecimento dos
clientes

A GE analisa em tempo as pás de todos os seus motores e turbinas,


possibilitando menor custo energético e planejamento preciso e preditivo
dos caros processos de manutenção das turbinas
Big Data – Exemplos Reais

• Análise das equipes de saúde, pacientes e necessidades do público


possibilitam o desenvolvimento de métodos e políticas que atendam
com maior eficiência e eficácia os cidadãos

• Big Data Genetics é um campo em desenvolvimento que possibilitará


tratamentos específicos para os pacientes - medicina personalizada,
conforme seus perfis e antecipação de doenças. O mapa genético fará
parte dos prontuários dos pacientes

Salvando vidas com Big Data


Analytics para prever as
condições e dos pacientes
Big Data – Exemplos Reais

• Cidades Inteligentes
– Qual a quantidade ideal de lixeiras para diminuir a
sujeira nas cidades?
– Como melhorar o tráfego?
– Como empregar melhor a presença policial?
Big Data – Exemplos Reais

• Alimentos
– O emprego de soluções IoT combinadas com Big Data
tem aumentado a quantidade e qualidade de alimentos,
bem como diminuído custos. Projetos inovadores
proporcionam safras com menor consumo de
agrotóxicos, menor uso de nutrientes não naturais

Análise de sensores geológicos


e imagens das plantações estão
impactando a produção de
alimento
Informações Implícitas

• Informações que podem ser obtidas pela


ausência de um determinado dado ou informação

• Muito cuidado com isso este método

• Assim que possível encontrar um dado ou


processo que valide suas premissas e insights
Estudo de Caso

• Que insights podem ser extraídos por uma


solicitação de informação de faixa de renda
Análise de Casos de Alunos

• Como implantar o seu modelo?

• Qual arquitetura seria necessária?

• Qual tecnologia seria necessária?


Perfis Organizacionais de Maturidade em
Ciência de Dados
Case 2 – Segmentação / Clusterização

Thiago Russo
Thiago.russo@gmail.com
Como Verificar se o Modelo de
Segmentação está Funcionando

• Análise de estabilidade de população

• Mudanças temporais

• Mudanças de perfil demográfico


Validação e Avaliação de Modelos

• Matriz de Confusão

• Indicadores estatísticos de qualidade de ajuste


Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Análise da regulamentação vigente

– Marco Civil da Internet


• De acordo com a lei, especificamente com o
Marco Civil da Internet, os brasileiros têm os
direitos de inviolabilidade da intimidade e da
vida privada

– GDPR – General Data Protection Regulation


(EU)
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Cliente VS Boa Vista Serviços AS

• Processo por Dano Moral 2013/0386285 com Recurso


Especial 1.419.697-RS pela BOA VISTA. 11/2014

• É legal a utilização de ratings de crédito


• Os dados utilizados no rating devem ser disponibilizados
para o consumidor
• Bureaus e provedores de dados estão sujeito a processos caso
sejam utilizados dados desatualizados ou equivocados
• Também são vetados o uso de informações excessivas ou
sensíveis que violem a sua honra e privacidade
Estudo de Caso

• Atua no crédito para empresas do varejo com


valores médios de USD 5000

• Monitora tendências no Facebook e Yelp para


dar crédito para empresas

• Consulta histórico de relacionamento com


PayPal, Amazon, SW de Imposto de Renda,
Yahoo, Ebay entre outros
Estudo de Caso

• Grindr – Site de relacionamentos GLBT

• Compartilhou informações sobre


– Preferência sexuais
– Status de HIV

• Com empresas parceiras para desenvolver


ofertas de produtos e serviços personalizados
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Case do Facebook e Cambridge Analytica

• O que aconteceu?

• Como aconteceu?
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Dificuldades de rastreamento e punição

• Falta de legislação e alinhamento internacional


sobre o tema

• Facilidade de migração de país para fugir das


regulamentações
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Onde está o dado que armazeno?

• Estou sujeito a quais jurisprudências e


regulamentações?
Questões Éticas e Regulamentações na
Coleta e Uso de Dados

• Como melhorar a regulamentação?

• A legislação não está acompanhando a


velocidade da evolução tecnológica
Análise de Casos de Alunos

• Onde você iria capturar informações?

• Onde você iria armazenar as informações?

• Onde você iria processar as informações?


Integração de Ciência de Dados e Modelos
de Negócio
Case 3 – Modelos de Detecção de Fraude

Thiago Russo
Thiago.russo@gmail.com
Como Verificar se o Modelo de
Detecção de Fraude está Funcionando

• Detecção de Fraude é um jogo de gato e rato

• O fraudador não gasta mais esforço do que o


necessário
– Economicamente não faz sentido
– Se não está sendo pego, para quê sofisticar

• Migração de região ou indústria


Estudo de Caso

• Detecção de fraude em um ambiente com poucas


fraudes

• Detecção e rastreamento de fraude de cartões de


crédito no Japão
– Análise de redes sociais
Estudo de Caso

• Engenharia social

• O comportamento humano é um aliado na


detecção de fraude
– Preguiça
– Lei do menor esforço

• Exemplo do político pego na Lava Jato


– Depósitos fracionados
Estudo de Caso

• Engenharia social

• Análise de redes de relacionamento


– Dados temporais
– Dados georeferenciados
– Integração de diversas fontes de dados

• Caso da Lava Jato para provar onde há conluio e


combinação de resultados
Integração de Ciência de Dados e
Processos de Negócio

• Novos modelos de negócio

– Onde o Netflix é melhor que a locadora


tradicional

– Onde o Uber é melhor que o serviço de taxi

– Onde a Amazon é melhor que os outros


varejistas
Integração de Ciência de Dados e
Processos de Negócio

• Integração e encadeamento de modelos

• Foco na Experiência do Usuário


Estudo de Caso

• Aplicativo para monitoramento de saúde e


qualidade do sono

• Foco na coleta de informações

• Melhor forma de entregar os resultados


Estudo de Caso

• Aplicativo para monitoramento de saúde e


qualidade do sono
Otimização de Modelo de Negócio

• Como entregar o resultado dos modelos

• Escoragem Batch
• Escoragem Online
• Geofencing
• Beacons

• Foco na Experiência do Usuário


Automação de Processos de Negócio

• O quê automatizar?
– Processos repetitivos
– Processos com pouco valor agregado
– Processos propensos a falhas operacionais
– Processos que unitariamente consomem pouco
tempo, mas que pelo volume tem impacto
relevante
Estudo de Caso

• Como é feita a detecção de buracos em rodovias


brasileiras?

• Um veículo faz a viagem filmando a rodovia

• Uma pessoa assiste ao video acelerado


marcando cada um dos buracos identificados
Serviços Analíticos

• Atualizar com os dados do Alê


Privacidade dos Dados

• Quais dados as empresas capturam?

• Quais dados o Google tem sobre você?

• Quais dados o Facebook tem sobre você?

• Quais dados os Bancos tem sobre você?

• Quais dados as Telecoms tem sobre você?

• Quais dados o governo tem sobre você?


Privacidade dos Dados

• Facebook
Estudo de Caso

• Modelo de Score do Cidadão na China


Análise de Casos de Alunos

• Seria possível fraudar o seu modelo?

• Como impedir ou mitigar essa possibilidade

• Seria possível automatizar totalmente o processo


que você pensou?

• Como melhorar a Experiência do Usuário com o


resultado do seu processo analítico?
Data Bobagem
Case 4 – Machine Learning – Vieses e Seus
Impactos
Thiago Russo
Thiago.russo@gmail.com
Como Verificar se o Modelo de Machine
Learning está Funcionando

• Análise de resultados

• Otimização de resultados

• Treinamento Continuado (Reinforced Learning)


Como Verificar se o Modelo de Machine
Learning está Funciondo

• Caso do Chatbot da Microsoft

• Atendimento de suporte de nível 1

• Treinamento continuado com feedback e textos


da internet

• Em 48 horas virou um troll racista e homofóbico


que precisou ser retirado do ar
Data Bobagem

• Exemplos nocivos de vieses na modelagem


Estudo de Caso

• Caso de Análise de Elegibilidade para Fiança


(Justiça)
Como Melhorar a Situação e Diminuir
os Vieses

• Leis para publicidade dos modelos públicos


utilizados

– Modelos
– Dados de Treinamento / Teste
Análise de Casos de Alunos

• Como verificar se seu caso tem algum viés

• Como diminuir o impacto do viés


Fundamentos de Ciência de Dados
Ciência de Dados pela Ótica de Negócio
Obrigado!
Thiago Russo
Thiago.russo@gmail.com

Você também pode gostar