Escolar Documentos
Profissional Documentos
Cultura Documentos
Belo Horizonte
2023
Maria Luiza Rabelo Serpa
Monografia de Especialização
apresentada ao Programa de Pós-
Graduação em Estatística da
Universidade Federal de Minas Gerais
como requisito parcial para obtenção do
título de Especialista em Estatística.
Belo Horizonte
2023
AGRADECIMENTOS
À minha mãe, minha gratidão eterna por todo amor, toda dedicação e por ser
minha referência na vida.
Agradeço ao meu companheiro de vida, Raoni, pelo incentivo, apoio e por ter
acreditado em mim mesmo em momentos que eu não acreditava. Sou eternamente
grata pelo companheirismo e paciência nos momentos difíceis.
Ao meu orientador, obrigada por sua excelência, ensinamentos e por ter me
incentivado a persistir. O mundo precisa de mais professores inspiradores e gentis
como você. Com certeza esse trabalho não teria acontecido sem sua ajuda.
Aos professores da Especialização de Estatística da UFMG, minha admiração
por toda disponibilidade, adaptabilidade e dedicação em compartilhar conhecimento,
mesmo em momentos difíceis e incertos.
RESUMO
Customer churn, also known as customer turnover, is the loss of existing customers
to competitors. It occurs when a customer decides to switch from one company's
product or service to another. In order to thrive, companies must understand what
drives their customers away if they want to reduce churn rates and retain their
current customers. One way to better understand customer churn, detect patterns
and predict customer behavior is by using a machine learning technique known as
Random Forest. It is an ensemble method that combines multiple decision trees and
outputs the most popular class. This study evaluates the impact of the geographic
categorical variable when using the Random Forest model to predict customer churn
of a financial institution in Germany, Spain and France, based on a public data
repository. To do this, a model was created with the complete database, and models
with the database stratified by country. The data from the models were analyzed
using quality prediction metrics. The premise that the customer's nationality would be
able to impact the statistical model proved to be true in a way for the method and
data used. The main differences were observed in the sensitivity and F1 score, both
related to the classification quality of the true churns in France, the country that
represents the largest part of the database proportionally, and Germany. Although the
findings of this study are limited to the data addressed and subject to the conditions
of analysis specified here, the results showed that, in the case of binary classification
via Random Forest, the exploration to stratify or not of the data can generate
interesting conclusions from a practical point of view.
1 INTRODUÇÃO…………………………………………………………………………... 9
2 BASE DE DADOS………………………………………………………………………. 11
3 METODOLOGIA………………………………………………………………………… 13
3.1 Regressão logística, árvores de decisão e Random Forest………………………….. 13
3.2 Etapas da Análise e Métricas de Avaliação……………………………………. 16
3.3 Software Utilizado…………………………………………………………………………. 18
4 RESULTADOS…………………………………………………………………………... 19
4.1 Análise descritiva…………………………………………………………………. 19
4.2 Resultados do Modelo Random Forest………………………………………… 25
5 DISCUSSÃO E CONSIDERAÇÕES FINAIS………………………………………… 28
REFERÊNCIAS……………………………………………………………………………. 31
9
1 INTRODUÇÃO
2 BASE DE DADOS
A base de dados selecionada para ser analisada neste trabalho foi obtida
através do site Kaggle1. Esses dados trazem informações sobre consumidores do
setor bancário e foi disponibilizada inicialmente com o objetivo de encontrar modelos
capazes de prever a ocorrência de churn de acordo com as informações desses
consumidores. A base de dados contém 10000 observações para cada uma das 14
variáveis disponíveis descritas no Quadro 1, sendo a variável Exited a variável
resposta de interesse. Em resumo, as variáveis dessa base se dividem em três
variáveis identificadoras, três variáveis intervalares, duas variáveis nominais, três
variáveis proporcionais e três variáveis binárias.
1
https://www.kaggle.com/
12
3 METODOLOGIA
Para a definição dos nós e ramos que irão compor uma árvore de decisão
podem ser utilizados diferentes métodos, dentre os quais se destacam o cálculo da
entropia, índice de Gini ou regressão (JAMES et al., 2013). Tais métodos referem-se
à fórmulas e cálculos responsáveis pela definição da estrutura final da árvore,
visando encontrar a estrutura mais otimizada para o problema em questão. Os
métodos utilizados pelos algoritmos visam identificar as variáveis, dentre o conjunto
de todas as variáveis preditoras, aquelas que possuem maior relação com a variável
resposta, colocando-as no topo da árvore, em seus nós principais. Em todos os
passos do algoritmo, a busca é feita no conjunto de todas as variáveis envolvidas na
análise.
Conforme Kotsiantis (2013) menciona, métodos de árvore de decisão são
modelos sequenciais que combinam uma sequência lógica de testes simples e por
essa razão são mais interpretáveis que modelos mais complexos. No entanto, esses
modelos normalmente não são competitivos, em termos de performance e predição,
se comparados a outros modelos de aprendizado supervisionado. Métodos que
combinam várias árvores de decisão, como, por exemplo, o Random Forest e
Bagging, foram criados para contornar os problemas relacionados com o método
15
Fonte: http://cursos.leg.ufpr.br/ML4all/
16
Sensibilidade
A sensibilidade mede a porcentagem de verdadeiros positivos (VP) que o
modelo classifica corretamente. Ou seja, no contexto deste trabalho, a sensibilidade
representa o percentual de acerto na classificação dos indivíduos que de fato
representam um churn na base de dados. Essa é uma métrica que dá mais ênfase
aos erros chamados de falsos negativos (FN) que ocorrem quando o modelo
classifica um churn observado como sendo não churn. Essa medida está
demonstrada na Equação (1):
𝑉𝑃
𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒 = 𝑉𝑃 + 𝐹𝑁
(1)
Especificidade
Ao contrário da sensibilidade, a métrica de especificidade mede a
porcentagem de verdadeiros negativos (VN) que o modelo classifica corretamente.
Ou seja, no contexto deste trabalho, a especificidade representa o percentual de
acerto na classificação dos indivíduos que de fato não representam um churn na
base de dados. Essa é uma métrica que dá mais ênfase aos erros chamados de
falsos positivos (FP) que ocorrem quando o modelo classifica um não churn
observado como sendo churn. Ela está definida conforme Equação (2):
𝑉𝑁
𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑𝑒 = 𝑉𝑁 + 𝐹𝑁
(2)
Acurácia
A métrica de acurácia é definida como a distância total entre os valores
estimados e os valores reais, conforme demonstrado na Equação (3). Ela é dada
pela porcentagem de classificações corretas em relação ao total de predições.
Utilizando a matriz de confusão, classificações corretas são tanto os verdadeiros
positivos, quanto os verdadeiros negativos.
𝑉𝑃 + 𝑉𝑁
𝐴𝑐𝑢𝑟á𝑐𝑖𝑎 = 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑝𝑟𝑒𝑑𝑖çõ𝑒𝑠
(3)
18
Precisão
Precisão é uma métrica muito utilizada em problemas de classificação e é
definida conforme mostrado na Equação (4). Ela avalia a relação entre o total de
classificações corretas de churns (verdadeiros positivos) dentro do total de
classificações positivas (churns identificados) feitas pelo modelo:
𝑉𝑃
𝑃𝑟𝑒𝑐𝑖𝑠ã𝑜 = 𝑉𝑃 + 𝐹𝑃
(4)
F1 score
A métrica F1 score é usada para avaliar a acurácia das predições de
classificações binárias e seu cálculo é apresentado na Equação (5). Ela corresponde
à média harmônica da precisão e da sensibilidade (CHICCO e JURMAN, 2020).
Quando calculada para o conjunto de classificações negativas (não churn), esta leva
em consideração a precisão e a especificidade.
𝑉𝑃
𝐹1𝑠𝑐𝑜𝑟𝑒 = 2 × 𝑉𝑃 + 𝐹𝑃 + 𝐹𝑁
(5)
desvio-padrão
100,32 9,76 2,94 58360,79 0,80 57912,42
(Exited = 1)
desvio-padrão
95,65 10,13 2,88 62848,04 0,51 57405,59
(Exited = 0)
França -
0,88 0,89 0,81 0,98 0,34 0,93 0,48
M. Completo
França -
0,88 0,89 0,76 0,97 0,43 0,93 0,55
M. Separado
Alemanha -
0,82 0,83 0,80 0,94 0,56 0,88 0,66
M. Completo
Alemanha -
0,80 0,80 0,80 0,92 0,57 0,86 0,66
M. Separado
Espanha -
0,88 0,88 0,80 0,98 0,38 0,93 0,51
M. Completo
Espanha -
0,88 0,88 0,80 0,98 0,38 0,93 0,51
M. Separado
tendo piorado um pouco a identificação dos não churns. Para este país, há uma
maior assertividade na identificação de churns, independentemente se a análise é
feita conjunta ou separadamente. Não houve diferença na capacidade preditiva para
a Espanha ao se comparar os dois contextos analisados.
Em suma, para os dados analisados neste estudo, conclui-se que a
separabilidade da base pode trazer vantagens na identificação de possíveis churns
em certos casos. Percebeu-se que ao trabalhar os dados da França separadamente,
a capacidade preditiva foi melhorada, possivelmente devido a comportamentos
discrepantes das covariáveis para clientes desse país quando comparado aos
demais. Embora tais discrepâncias não tenham sido observadas na análise
descritiva dos dados, as especificações internas do método Random Forest podem
tê-las identificado e gerado o efeito observado.
Alguns trabalhos e fóruns que abordam problemas de predição via modelos
de regressão, apontam que a estratificação da base pode ser importante para
permitir que a distribuição dos erros aleatórios sejam diferentes dentro de cada
estrato1. A verificação de tal condição pode ser feita através da análise descritiva dos
resíduos do modelo ajustado com os dados completos2,3. Embora os achados deste
estudos sejam limitados aos dados abordados e sujeitos às condições de análises
aqui especificadas, os resultados mostraram que, no caso da classificação binária
via Random Forest, a exploração sobre estratificação ou não dos dados pode gerar
conclusões interessantes do ponto de vista prático.
Por fim, uma possível limitação deste estudo diz respeito ao fato de que
apenas um método de análise foi considerado, o Random Forest, mas outros podem
ser explorados em análises futuras. Com a regressão logística, por exemplo,
pode-se analisar mais diretamente possíveis mudanças nos efeitos das covariáveis
sobre a chance de ocorrência ou não de churn, o que fica limitado no Random
Forest por ser um método que não permite muito controle sobre os efeitos
individuais das covariáveis.
1
-https://stats.stackexchange.com/questions/468663/what-is-the-difference-between-a-linear-regressi
on-with-a-dummy-variable-and-two
2
-https://stats.stackexchange.com/questions/17110/should-i-run-separate-regressions-for-every-com
munity-or-can-community-simply-b
3
-https://stats.stackexchange.com/questions/12797/how-to-test-whether-a-regression-coefficient-is-
moderated-by-a-grouping-variable
30
REFERÊNCIAS
BREIMAN, L.. Random forests. Machine Learning, Springer Science and Business
Media LLC, v. 45, n. 1, p. 5–32, 2001. Disponível em:
<https://doi.org/10.1023/a:1010933404324>.
COX, D. R.. The regression analysis of binary sequences. Journal of the Royal
Statistical Society: Series B (Methodological), 20(2), 215–232, 1958.
CUTLER, A., CUTLER, D.R., STEVENS, J.R.. Random Forests. Em: Zhang, C.,
Ma, Y. (eds) Ensemble Machine Learning. Springer, Boston, MA, 2012. Disponível
em: <https://doi.org/10.1007/978-1-4419-9326-7_5>
KAI, M. T.. Precision and recall. In: Encyclopedia of machine learning. Springer,
2011. p. 781-781. Disponível em: <https://doi.org/10.1007/978-0-387-30164-8_651>
RAHMAN, M., KUMAR, V.. Machine Learning Based Customer Churn Prediction
In Banking. 4th International Conference on Electronics, Communication and
Aerospace Technology (ICECA), pp. 1196-1201, Coimbatore, India, 2020.
VAN ROSSUM, G., DRAKE Jr, F. L.. Python reference manual. Centrum voor
Wiskunde en Informatica Amsterdam, 1995.