Escolar Documentos
Profissional Documentos
Cultura Documentos
1. INTRODUÇÃO
1.1. Contextualização
Este artigo intitulado factores que influenciam a desistência dos clientes no uso de um certo
produto, tem como objetivo principal investigar a relação entre a desistência dos clientes no uso
de um certo produto num determinado período de tempo com as variáveis idade, sexo, renda,
escolaridade e quantidade de compras de um grupo comercial internacional.
Qualquer empresa que se orienta numa óptica de marketing necessita de um conjunto de dados
e/ou indicadores quer sobre o próprio mercado, quer sobre os consumidores/clientes e a
concorrência a fim de planear, controlar e executar todo o processo de gestão e/ou delinear
estratégias a prosseguir. A palavra-chave para um bom desempenho e concretização das funções
de marketing é a informação. Por isso é imprescindível para qualquer empresa orientada na
óptica de marketing, a implementação de um Sistema de Informação de Marketing.
Segundo Kotler, o Sistema de Informação de Marketing (SIM) pode ser definido como:
H0: As variáveis idade, sexo, renda, escolaridade e quantidade de compras do cliente não
influenciam significativamente a desistência do cliente no uso de um certo produto
H1: Existe pelo menos uma variável que influencia significativamente a desistência do cliente no
uso de um certo produto
Para atingir o objectivo principal deste estudo e responder as perguntas focais, temos como
objectivos específicos:
2. DADOS E MATERIAL
2.1. Descrição dos dados
Para a realização deste trabalho recorreu-se a uma base de dados de um grupo comercial
internacional de 72 clientes, que contém informações sobre dados demográficos dos clientes,
comportamento de compra e se eles desistiram, ou não, de usar um certo produto em um
determinado período de tempo. A tabela seguinte ilustra as variáveis em estudo, a sua
classificação e as respectivas categorias (para variáveis categóricas).
Como citamos anteriormente, o objectivo principal deste estudo é de investigar a associação entre a
desistência (variável resposta/dependente) com as variáveis explicativas ou independentes (idade, sexo,
renda, escolaridade e quantidade de compras do cliente). A variável resposta é dicotómica (segue uma
distribuição de Bernoulli), porém, quanto ao processo de amostragem para a recolha de dados recorreu-
se a amostragem binomial.
SECÇÃO III.
3. METODOLOGIA
3.1. Descrição das técnicas para realização do trabalho
Para alcançar o objectivo deste estudo foi ajustado aos dados um Modelo de Regressão Logística
Múltipla (MLG) para identificar quais preditores são significativos na previsão da probabilidade
de desistência de um certo uso do produto.
Segundo Stokes et all (2000), os modelos de regressão constituem uma das ferramentas
estatísticas mais importantes na análise estatística de dados quando se pretende modelar relações
entre variáveis. O principal objetivo destes modelos é explorar a relação entre uma ou mais
variáveis explicativas (ou independentes) e uma variável resposta (ou dependente). Um dos
casos particulares dos modelos lineares generalizados são os modelos onde a variável resposta
apresenta apenas duas categorias ou que de alguma forma foi dicotomizada assumindo valores 0
ou 1 sendo o modelo de regressão logística o mais popular desses modelos.
Ainda, para estes autores a regressão logística é uma técnica estatística que tem como objetivo
modelar, a partir de um conjunto de observações, a relação “logística” entre uma variável
resposta dicotómica e uma série de variáveis explicativas numéricas (continuas, discretas) e/ou
categóricas.
Apos o ajuste do modelo, com objectivo de encontrar as respostas das nossas perguntas de
pesquisa vamos realizar:
b) O teste de Wald
Este testa se cada coeficiente é significativamente diferente de zero. Deste modo, o teste de
Wald averigua se uma determinada variável independente apresenta uma relação
estatisticamente significativa com a variável dependente.
Uma vez ajustado o modelo e após avaliar a significância dos coeficientes estimados, é agora
necessário interpretar os seus valores, tendo em consideração a natureza das variáveis
independentes.
Em qualquer modelo de regressão, é necessário proceder à análise dos resíduos para validação da
qualidade do modelo estimado. Assim, pretende-se avaliar quais as ”distâncias” entre os valores
observados e os valores estimados, ou seja, pretende-se testar a seguinte hipótese nula “ modelo
encontrado explica bem os dados”.
Existem dois tipos de resíduos possíveis que poderão ser utilizados para avaliar a qualidade do
ajustamento:
a) Os resíduos de Pearson e
b) os resíduos da Deviance.
3.1.4.1. A curva ROC
A curva ROC (Receiver Operating Characteristc) é uma ferramenta que permitirá avaliar o
desempenho do um modelo de regressão, já que a nossa variável resposta é binária (variável
resposta é do tipo 0-1).
Para este trabalho, a área abaixo da curva de ROC, vai fornece-nos uma medida de
discriminação, que nos indica a possibilidade de um cliente que não desistiu de usar o produto ter
uma probabilidade estimada associada mais elevada do que um individuo que desistiu.
SECÇÃO IV.
Do total dos clientes (n=72), a maioria era do sexo masculino (51,4%, n=37). Em relação à idade
verificou-se que em média os clientes tinham 39 anos variando dos 26 aos 53 anos. Em relação ao nível
de escolaridade dos clientes, verificou-se que a maioria tinha o nível de Mestrado (29,2%) e apenas
19,4% é que tinha o nível de Doutorado. Para o Ensino Medio e Bacharelado tínhamos 23,65 e 27,9%
respectivamente. Relactivamente, à quantidade de compras, verificou-se que em média os clientes
compravam 4 unidades, variando de 2 a 7 unidades do produto. Estes tinham em média um rendimento de
59.847.00 mts, variando de 38 a 92 mil meticais.
Em relação a desistência de uso de produtos, a maior parte dos clientes (58,3%, n=42) desistiu de usar o
produto num determinado período de tempo.
Vários modelos de regressão logística para prever a probabilidade de desistência foram testados.
Para a seleção do modelo mais adequado, foram utilizados o teste da razão de verossimilhança e
o AIC ( Akaike Information Criterion).
As variáveis para as quais a hipótese nula do teste de Wald é rejeitada, ao nível de significância
de 5%, e portanto são covariáveis significativas no modelo, são: Escolaridade e Quantidade de
Compras do cliente. O resumo deste modelo é apresentado na Tabela 2 e na equação ( 1 ).
> summary(model)
Call:
glm(formula = Desistencia ~ Idade + Renda + Compras + Sexo_Masculino +
Escolaridade_Bacharelado + Escolaridade_Mestrado +
Escolaridade_Doutorado,
family = binomial, data = train_data)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -5.0104 2.2009 -2.277 0.02282 *
Idade -0.1175 0.8603 -0.137 0.89139
Renda 0.4281 0.9203 0.465 0.64180
Compras -4.4434 2.0489 -2.169 0.03011 *
Sexo_Masculino -1.3024 0.9851 -1.322 0.18613
Escolaridade_Bacharelado 7.9894 2.6413 3.025 0.00249 **
Escolaridade_Mestrado 4.3016 1.9194 2.241 0.02502 *
Escolaridade_Doutorado 10.2405 5.0813 2.015 0.04387 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
print(results_table)
Estimate 2.5 % 97.5 % p-value
(Intercept) -5.0104344 -10.941029 -1.5780820 0.022815411
Idade -0.1174683 -1.819115 1.6871640 0.891385452
Renda 0.4280853 -1.335950 2.3866075 0.641802809
Compras -4.4434452 -10.057183 -1.3320929 0.030107729
Sexo_Masculino -1.3024193 -3.467728 0.5601843 0.186130203
Escolaridade_Bacharelado 7.9893799 3.936901 15.0388089 0.002488485
Escolaridade_Mestrado 4.3015896 1.052018 8.8130656 0.025016180
Escolaridade_Doutorado 10.2404674 2.268891 23.7243133 0.043872606
As tabelas apresentam os resultados do modelo de regressão logística ajustado para analisar a
influência das variáveis independentes (Idade, Renda, Compras, Sexo e Escolaridade) na variável
dependente (Desistência).
Significância estatística dos parâmetros (Teste de Wald): Quanto menor o p-value (menor
que 0.05) associado a um coeficiente, mais significativo é o seu efeito na variável resposta.
Idade: O coeficiente estimado para a variável "Idade" é -0.1174683. No entanto, esse coeficiente
não é estatisticamente significativo (p-valor = 0.8914). Isso indica que a idade não tem um efeito
estatisticamente significativo na probabilidade de desistência de um cliente. O valor de exp(beta)
para "Idade" é 8.891687e-01, o que indica que a odds de "Desistência" diminui em cerca de 11%
para cada unidade de aumento na idade.
Renda: O coeficiente estimado para a variável "Renda" é 0.4280853. Assim como a idade, a
renda também não é estatisticamente significativa (p-valor = 0.6418), sugerindo que a renda não
tem um efeito estatisticamente significativo na probabilidade de desistência. O valor de exp(beta)
para "Renda" é 1.534317, o que sugere que a odds de "Desistência" aumenta em cerca de 53%
para cada unidade de aumento na renda.
Null deviance: 68.99– é a estatística de Deviance do modelo nulo, ou seja, o modelo sem
nenhuma variável explicativa.
AIC: 51.713
pearson_chi_square: 1327.271
Os resultados mostram evidência de rejeitar a hipótese nula, o que significa que algumas
variáveis têm um impacto significativo na probabilidade de desistência de uso do produto. Como
vimos antes, a escolaridade e o número de compras têm um efeito estatisticamente significativo
na variável resposta. Enquanto as variáveis "Sexo_Masculino", idade do cliente e renda não há
evidências de serem estatisticamente significativa no modelo ajustado.
Apos as tentativas de encontrar um modelo com interações, infelizmente, não foi possível
encontrar interações estatisticamente significativas entre as variáveis explicativas no modelo.
Isto, pode ser influenciado pelo tamanho da nossa amostra ou outros factores não considerados
neste estudo.
A Figura 1 mostra que, como esperado, os resíduos não possuem distribuição normal padrão. De
fato, a distribuição, para ambos os resíduos, é assimétrica.
0
1
1
8
0
1
ia
ia
6
c
c
n
n
ê
ê
u
u
q
q
e
re
F
r
4
F
2
0
0
-6 -4 -2 0 2 -3 -2 -1 0 1 2
Previsão
0 10 0
10
1 5 7
12
Total
15 7 22
> cat("Sensibilidade:", sensibilidade, "\n")
Sensibilidade: 0.5833333
Curva ROC
1.0
0.8
0.6
Sensitivity
0.4
0.2
0.0
SECÇÃO V.
5. CONCLUSÃO
Quanto à qualidade do ajuste do modelo, através de várias análises dos resíduos, incluindo o
histograma dos resíduos e o gráfico de resíduos de Pearson versus valores ajustados, observamos
que os resíduos estão distribuídos aproximadamente de forma simétrica em torno de zero e não
há padrões visíveis nos gráficos. O modelo tem um ajuste aceitável comparativamente com os
outros.
Avaliamos o desempenho do modelo usando a matriz de confusão, que nos fornece informações
sobre a taxa de acertos e erros de classificação do modelo, bem como as métricas de
sensibilidade e especificidade para verificar sua capacidade de identificar corretamente os casos
de desistência, onde contatou-se que a sensibilidade é de 0.583333, ou seja, o modelo acerta
aproximadamente 58.33% dos casos de desistência e a a especificidade é 1, o que significa que o
modelo acerta 100% dos casos de não desistência.
Traçamos a curva ROC (Receiver Operating Characteristic) para avaliar a taxa de verdadeiros
positivos em função da taxa de falsos positivos em diferentes pontos de corte. A área sob a curva
ROC (AUC) é uma métrica comum para medir a capacidade discriminativa do modelo e para o
nosso caso uma área excepcional igual a 0.96.
6. REFERÊNCIAS BIBLIOGRÁFICAS
Kleinbaum, D., Kupper, L., & Muller, K. Applied Regression Analysis and Other Multivariate
Methods. USA: Duxbury Press. 1998.
Stokes, M. E., Davis, C. S., & Koch, G. G. Categorical Data Analysis using The SAS System.
Cary,NC: SAS institute Inc. 2000.
Turkman, M. A., & Silva, G. L.Modelos Lineares Generalizados - da teoria à prática. Lisboa:
Edições SPE. 2000.
library(dplyr)
library(ggplot2)
# Carregue os dados
data=Base1
select(-Sexo, -Escolaridade)
# Dividir os dados em conjunto de treinamento e teste (70% para treinamento, 30% para teste)
# É importante padronizar apenas as variáveis numéricas para manter a interpretação das variáveis dummy.
# Ajustar o modelo
ggplot() +
x = "Valores Previstos",
y = "Resíduos de Deviance")
print(exp_beta)
# Obter os valores-p
print(results_table)