Escolar Documentos
Profissional Documentos
Cultura Documentos
br
Business Analytics
Fraudes em Transações de Cartões de
Crédito
Sumário Executivo
Business Analytics
A empresa XZY Cartões Inc. é uma operadora de cartões de crédito corporativos, que atende
em todo o território dos EUA. Recentemente a empresa vem enfrentando um aumento no
número de fraudes com cartões de crédito, dos mais variados, desde clonagem, passando por
roubo de senhas e até mesmo fraudes realizadas pelos comerciantes que aceitam pagamento
em cartão.
A empresa possui o registro de 95 mil transações de cartão de crédito feitas durante o ano de
2010. Para cada registro de transação, há informações detalhadas do número do cartão, data
da transação, número do comerciante, estado do comerciante, código postal, etc. Além disso,
cada registro recebe um rótulo (label) de fraude indicando se o registro é ou não categorizado
como uma fraude. Há aproximadamente 4000 registros de transações fraudulentas. Através do
método de aprendizagem supervisionada, construíremos vários modelos lineares e não-lineares
diferentes para calcular uma pontuação de fraude para cada registro e usar os rótulos de
fraude para calcular nossa taxa de detecção de fraude. O objetivo é capturar tantas transações
fraudulentas quanto possível.
Iniciamos o projeto conduzindo um relatório de qualidade de dados sobre o conjunto de dados
(análise exploratória) e descobrimos coisas interessantes e incomuns sobre os dados. Depois de
entender o que os dados realmente representam, começamos a construir variáveis e realizar o
pré-processamento para a construção dos modelos. Os níveis de entidade que escolhemos são
número de cartão (CARDNUM), número de comerciante (MERCHNUM) e estado do
comerciante (MERCHSTATE). Como queremos estudar o comportamento das transações, nós
nos concentramos no número de transações e na quantidade de transações duplicadas. Para a
entidade STATE, calculamos a porcentagem de transações em um determinado cartão que
aconteceu no mesmo estado que o registro atual. Sob estas diretrizes, construímos 25 variáveis
para modelagem.
Depois de construir as variáveis, primeiro separamos os dados de validação, que contém todas
as transações. Em seguida, separamos o restante dos dados para treinamento (80%) e dados de
teste (20%). Para os dados de treinamento, a fim de obter melhores resultados de modelagem
e taxas de detecção de fraude mais altas, também criamos amostras: selecionamos apenas uma
fração dos registros “não-fraude” com todos os registros de fraude. As razões entre não-fraude-
fraude são 1/1, 3/1, 5/1, 7/1 e 10/1. Os modelos incluem Random Forest e Redes Neurais.
Comparamos nossos modelos com base em seus FDR (Fraud Detection Rate) @ 3%, e
finalmente definimos o modelo com o melhor resultado. Nos vídeos a seguir, teremos uma
discussão detalhada sobre dados, o processo de seleção de entidades e variáveis de construção,
algoritmos e os resultados do nosso modelo, incluindo o desempenho do modelo e as tabelas
de distribuição de pontuação.