Você está na página 1de 5

www.datascienceacademy.com.

br



Business Analytics


Fraudes em Transações de Cartões de
Crédito
Sumário Executivo



Business Analytics

A empresa XZY Cartões Inc. é uma operadora de cartões de crédito corporativos, que atende
em todo o território dos EUA. Recentemente a empresa vem enfrentando um aumento no
número de fraudes com cartões de crédito, dos mais variados, desde clonagem, passando por
roubo de senhas e até mesmo fraudes realizadas pelos comerciantes que aceitam pagamento
em cartão.

A empresa possui o registro de 95 mil transações de cartão de crédito feitas durante o ano de
2010. Para cada registro de transação, há informações detalhadas do número do cartão, data
da transação, número do comerciante, estado do comerciante, código postal, etc. Além disso,
cada registro recebe um rótulo (label) de fraude indicando se o registro é ou não categorizado
como uma fraude. Há aproximadamente 4000 registros de transações fraudulentas. Através do
método de aprendizagem supervisionada, construíremos vários modelos lineares e não-lineares
diferentes para calcular uma pontuação de fraude para cada registro e usar os rótulos de
fraude para calcular nossa taxa de detecção de fraude. O objetivo é capturar tantas transações
fraudulentas quanto possível.

Iniciamos o projeto conduzindo um relatório de qualidade de dados sobre o conjunto de dados
(análise exploratória) e descobrimos coisas interessantes e incomuns sobre os dados. Depois de
entender o que os dados realmente representam, começamos a construir variáveis e realizar o
pré-processamento para a construção dos modelos. Os níveis de entidade que escolhemos são
número de cartão (CARDNUM), número de comerciante (MERCHNUM) e estado do
comerciante (MERCHSTATE). Como queremos estudar o comportamento das transações, nós
nos concentramos no número de transações e na quantidade de transações duplicadas. Para a
entidade STATE, calculamos a porcentagem de transações em um determinado cartão que
aconteceu no mesmo estado que o registro atual. Sob estas diretrizes, construímos 25 variáveis
para modelagem.

Depois de construir as variáveis, primeiro separamos os dados de validação, que contém todas
as transações. Em seguida, separamos o restante dos dados para treinamento (80%) e dados de
teste (20%). Para os dados de treinamento, a fim de obter melhores resultados de modelagem
e taxas de detecção de fraude mais altas, também criamos amostras: selecionamos apenas uma
fração dos registros “não-fraude” com todos os registros de fraude. As razões entre não-fraude-
fraude são 1/1, 3/1, 5/1, 7/1 e 10/1. Os modelos incluem Random Forest e Redes Neurais.
Comparamos nossos modelos com base em seus FDR (Fraud Detection Rate) @ 3%, e
finalmente definimos o modelo com o melhor resultado. Nos vídeos a seguir, teremos uma
discussão detalhada sobre dados, o processo de seleção de entidades e variáveis de construção,
algoritmos e os resultados do nosso modelo, incluindo o desempenho do modelo e as tabelas
de distribuição de pontuação.




Data Science Academy 2


www.datascienceacademy.com.br

Business Analytics

Resumo do Dataset

O dataset contém registros de transações de cartão de crédito, juntamente com o número do
cartão, informações do comerciante, data e tipo de transação. Há aproximadamente 95 mil
registros com 10 campos (1 identificador único, 1 variável dependente, 8 variáveis
independentes). Para cada registro, o rótulo de fraude é "1" significa que o registro é fraude e
"0" significa que o registro não é fraude. No conjunto de dados, a porcentagem de registros
com "Fraud label" = 1 é aproximadamente igual a 4,2%. O prazo foi de 01 de Janeiro de 2010 a
31 de Dezembro de 2010 e o formato original do arquivo é .csv. Abaixo está um resumo dos
nomes de campo e o percentual preenchido em cada campo.

Descrição Nome do Campo % Populado
Identificador RECORD 100
Variável dependende FRAUD_LABEL 100
AMOUNT 100
Variável independente numérica CARDNUM 100
MERCHNUM 96
MERCHDESCRIPTION 100
MERCHSTATE 99
Variável independente categórica TRANSTYPE 100
MERCHZIP 95
DATE 100

Como resultado da análise exploratória, algumas descobertas ajudaram a orientar uma análise
mais aprofundada:

O número de transações associadas a cada número de cartão varia muito, com o maior número
acima de 1.000. O número de transações para cada comerciante também varia muito, com o
maior número acima de 9.000. Pode ser interessante explorar os valores altos dentro dessas
duas entidades.

O código postal de cada comerciante tem o maior número de valores em falta (dados missing).
Os códigos zip listados também têm diferentes tamanhos e formatos. Devido à irregularidade
neste campo, podemos não escolhê-lo como uma entidade para a nossa análise.

O registro abaixo possui a maior quantidade (AMOUNT) de pagamento no conjunto de dados, e
tem um valor significativamente maior do que outros registros. Existem muitas informações em
falta nessa linha e as informações da descrição do comerciante que é "INTERMEXICO" são
muito suspeitas associadas a esse valor de pagamento. A existência deste registro pode ter uma
influência na nossa pontuação de outros registros e deve se removido do processo de análise,
embora mereça investigação posterior.


Data Science Academy 3
www.datascienceacademy.com.br

Business Analytics


Record#: 52293
CARDNUM: 5142189135
DATE: 7/13/2010
AMOUNT: $3,102,045.53


Entidades e Variáveis

Entidades

Nós dividimos os dados principalmente com base em dois níveis de entidade: CARDNUM e
MERCHNUM. A observação de anomalias nesses dois níveis de entidade pode ajudar a explicar
as diferenças de usuário entre diferentes titulares de cartões e diferentes comerciantes.
Também incluímos STATE como um nível de entidade e observamos a frequência de mudanças
de local para um determinado cartão em uma determinada data.

Variáveis

Adicionamos um total de 25 variáveis para modelar nossos dados. Nossa intenção é encontrar
anomalias com base no número de transações e os montantes da transação durante um
período de tempo.

Para as entidades CARDNUM e MERCHNUM, calculamos o número de transações, o valor total
da transação e o número de duplicatas no valor em um determinado momento em cada nível
da entidade. Devido aos padrões habituais de fraude de cartão de crédito, selecionamos o
período de tempo passado em 1, 2, 3 ou 7 dias. Como estamos assumindo que não temos
conhecimento de registros que aconteceram após cada registro existente, padronizamos o
número de transações e o valor total da transação definindo a atividade em cada nível de
entidade nos últimos 90 dias como normal. Para as variáveis que transmitem informações sobre
os montantes de transação duplicados, padronizamos as variáveis definindo o número total de
transações no período de tempo determinado em um determinado nível de entidade como
base e dividindo-o pelo número de transações que têm o mesmo valor que o registro nessa
estrutura de tempo e nível de entidade. Multiplicamos essa fração por 100 para obter o valor
percentual de transações que têm valores duplicados como o registro atual. Quanto maior esse
número, mais prováveis são os duplicados.

Para a entidade STATE, calculamos a porcentagem de transações em um determinado cartão
que aconteceu no mesmo estado que o registro atual. Definimos o período de tempo no
passado, em 1 dia, uma vez que a mudança de local é sensível ao tempo. Um prazo mais longo
seria desnecessário, uma vez que é possível e razoável que a viagem tenha ocorrido durante
alguns dias, e uma mudança no estado que aconteceu no último 1 dia tem uma probabilidade
muito maior de fraude. Se essa variável for 100, isso significa que o cartão só foi usado em um

Data Science Academy 4


www.datascienceacademy.com.br

Business Analytics

estado durante o último dia. Se a variável é pequena, isso significa que apenas alguns registros
ocorreram em um local diferente da maioria, e essas são anomalias que devemos colocar foco.





Data Science Academy 5


www.datascienceacademy.com.br

Você também pode gostar