Você está na página 1de 17

SECÇÃO I.

1. INTRODUÇÃO
1.1. Contextualização

Este artigo intitulado factores que influenciam a desistência dos clientes no uso de um certo
produto, tem como objetivo principal investigar a relação entre a desistência dos clientes no uso
de um certo produto num determinado período de tempo com as variáveis idade, sexo, renda,
escolaridade e quantidade de compras de um grupo comercial internacional.

Qualquer empresa que se orienta numa óptica de marketing necessita de um conjunto de dados
e/ou indicadores quer sobre o próprio mercado, quer sobre os consumidores/clientes e a
concorrência a fim de planear, controlar e executar todo o processo de gestão e/ou delinear
estratégias a prosseguir. A palavra-chave para um bom desempenho e concretização das funções
de marketing é a informação. Por isso é imprescindível para qualquer empresa orientada na
óptica de marketing, a implementação de um Sistema de Informação de Marketing.

Segundo Kotler, o Sistema de Informação de Marketing (SIM) pode ser definido como:

A ação conjunta de pessoas, equipamentos e métodos visando a recolha, tratamento, análise,


avaliação e distribuição em devido tempo de toda a informação atualizada e necessária para a
tomada das mais adequadas decisões de marketing. (Lopes, 2007)

Um Sistema de Informação de Marketing concretiza ou materializa as suas funções através de 4


vertentes: dados internos, notícias de marketing, suporte das decisões de marketing e estudos de
mercado. Destes, o estudo do mercado é o mais conhecido e mais aplicado pela gestão de
marketing.

Define-se estudo de mercado como um processo sistemático e objetivo de recolha e consequente


da informação necessária e indispensável para a tomada de decisões por parte da gestão/direção
de marketing.

Sintetizando, os estudos de mercado auxiliam o marketing não só a detectar e avaliar qualitativa


e quantitativamente as necessidades e/ou preferências dos consumidores, o impacto das
acções de marketing levadas a cabo e ainda os hábitos e comportamentos dos consumidores face
a todas as variáveis do marketing-mix.
As áreas de aplicação do estudo de mercado são o Mercado, o Consumidor e a Concorrência.
Este estudo foca tanto no consumidor, tento como perguntas norteadoras do estudo:

1. Existe alguma associação entre a desistência, ou não, do cliente no uso de um certo


produto e as variáveis idade, sexo, renda, escolaridade e quantidade de compras do
cliente?
2. Se, a resposta da primeira pergunta for positiva, então, quais são as variáveis que
contribuem significativamente para a desistência dos clientes?

As perguntas estão associadas às seguintes hipóteses:

H0: As variáveis idade, sexo, renda, escolaridade e quantidade de compras do cliente não
influenciam significativamente a desistência do cliente no uso de um certo produto

H1: Existe pelo menos uma variável que influencia significativamente a desistência do cliente no
uso de um certo produto

Para atingir o objectivo principal deste estudo e responder as perguntas focais, temos como
objectivos específicos:

a) Descrever a amostra do estudo


b) Verificar a existência de uma associação entre a desistência do cliente com cada variável
explicativa
c) Ajustar um modelo de regressão logística, em que a variável resposta é dicotómica entre
desistir, ou não, de usar um certo produto num determinado período de tempo.
SECÇÃO II.

2. DADOS E MATERIAL
2.1. Descrição dos dados

Para a realização deste trabalho recorreu-se a uma base de dados de um grupo comercial
internacional de 72 clientes, que contém informações sobre dados demográficos dos clientes,
comportamento de compra e se eles desistiram, ou não, de usar um certo produto em um
determinado período de tempo. A tabela seguinte ilustra as variáveis em estudo, a sua
classificação e as respectivas categorias (para variáveis categóricas).

Variável Rótulo Classificação Categorias


Idade Idade do cliente (em anos) Quanti. (Discreto)
Sexo Sexo do cliente Categórica 0-Feminino
(Nominal) 1-Masculino
Renda Rendimento anual do cliente (em meticais) Quanti. (Continuo)
1-Ensino Médio
Escolaridad Nível de escolaridade do cliente Categórica 2-Bacharelado
e (Ordinal) 3-Mestrado
4-Doutorado
Compras Número de compras feitas pelo cliente Quanti. (Discreto)
Desistência O cliente desistiu ou não Categórica 0-Não
(Nominal) 1-Sim

Como citamos anteriormente, o objectivo principal deste estudo é de investigar a associação entre a
desistência (variável resposta/dependente) com as variáveis explicativas ou independentes (idade, sexo,
renda, escolaridade e quantidade de compras do cliente). A variável resposta é dicotómica (segue uma
distribuição de Bernoulli), porém, quanto ao processo de amostragem para a recolha de dados recorreu-
se a amostragem binomial.
SECÇÃO III.

3. METODOLOGIA
3.1. Descrição das técnicas para realização do trabalho

Para alcançar o objectivo deste estudo foi ajustado aos dados um Modelo de Regressão Logística
Múltipla (MLG) para identificar quais preditores são significativos na previsão da probabilidade
de desistência de um certo uso do produto.

3.1.1. Justificativa da escolha do modelo de regressão logística

Segundo Stokes et all (2000), os modelos de regressão constituem uma das ferramentas
estatísticas mais importantes na análise estatística de dados quando se pretende modelar relações
entre variáveis. O principal objetivo destes modelos é explorar a relação entre uma ou mais
variáveis explicativas (ou independentes) e uma variável resposta (ou dependente). Um dos
casos particulares dos modelos lineares generalizados são os modelos onde a variável resposta
apresenta apenas duas categorias ou que de alguma forma foi dicotomizada assumindo valores 0
ou 1 sendo o modelo de regressão logística o mais popular desses modelos.

Ainda, para estes autores a regressão logística é uma técnica estatística que tem como objetivo
modelar, a partir de um conjunto de observações, a relação “logística” entre uma variável
resposta dicotómica e uma série de variáveis explicativas numéricas (continuas, discretas) e/ou
categóricas.

3.1.2. Testes associados ao modelo ajustado

Apos o ajuste do modelo, com objectivo de encontrar as respostas das nossas perguntas de
pesquisa vamos realizar:

a) O teste de significância do modelo usando o teste da razão de verosimilhanças e o AIC.

Com este teste pretende-se testar simultaneamente se os coeficientes de regressão associados a


beta são todos nulos com excepção do intercepto.

b) O teste de Wald
Este testa se cada coeficiente é significativamente diferente de zero. Deste modo, o teste de
Wald averigua se uma determinada variável independente apresenta uma relação
estatisticamente significativa com a variável dependente.

3.1.3. Interpretação dos coeficientes estimados

Uma vez ajustado o modelo e após avaliar a significância dos coeficientes estimados, é agora
necessário interpretar os seus valores, tendo em consideração a natureza das variáveis
independentes.

3.1.4. Diagnóstico do modelo

Em qualquer modelo de regressão, é necessário proceder à análise dos resíduos para validação da
qualidade do modelo estimado. Assim, pretende-se avaliar quais as ”distâncias” entre os valores
observados e os valores estimados, ou seja, pretende-se testar a seguinte hipótese nula “ modelo
encontrado explica bem os dados”.

Existem dois tipos de resíduos possíveis que poderão ser utilizados para avaliar a qualidade do
ajustamento:

a) Os resíduos de Pearson e
b) os resíduos da Deviance.
3.1.4.1. A curva ROC

A curva ROC (Receiver Operating Characteristc) é uma ferramenta que permitirá avaliar o
desempenho do um modelo de regressão, já que a nossa variável resposta é binária (variável
resposta é do tipo 0-1).

Para este trabalho, a área abaixo da curva de ROC, vai fornece-nos uma medida de
discriminação, que nos indica a possibilidade de um cliente que não desistiu de usar o produto ter
uma probabilidade estimada associada mais elevada do que um individuo que desistiu.

Sendo R, o valor que corresponde à área abaixo da curva de ROC:

Se R = 0, 5 não há discriminação; Se 0,7 ≤ R<0,8 a discriminação é aceitável

Se 0,8 ≤ R <0,9 Discriminação excelente; Se R ≥ 0,9 Discriminação excepcional


O software utilizado, tanto na análise descritiva como na construção do modelo de regressão
logística foi o R, versão 4.3.1. Na secção 4 a seguir apresentados os resultados da aplicação das
técnica estatística escolhida para a realização deste estudo e a respectiva discussão.

SECÇÃO IV.

4. APLICAÇÃO AOS DADOS E DISCUSSÃO DOS RESULTADOS


4.1. Análise descritiva

Do total dos clientes (n=72), a maioria era do sexo masculino (51,4%, n=37). Em relação à idade
verificou-se que em média os clientes tinham 39 anos variando dos 26 aos 53 anos. Em relação ao nível
de escolaridade dos clientes, verificou-se que a maioria tinha o nível de Mestrado (29,2%) e apenas
19,4% é que tinha o nível de Doutorado. Para o Ensino Medio e Bacharelado tínhamos 23,65 e 27,9%
respectivamente. Relactivamente, à quantidade de compras, verificou-se que em média os clientes
compravam 4 unidades, variando de 2 a 7 unidades do produto. Estes tinham em média um rendimento de
59.847.00 mts, variando de 38 a 92 mil meticais.

Em relação a desistência de uso de produtos, a maior parte dos clientes (58,3%, n=42) desistiu de usar o
produto num determinado período de tempo.

4.2. Regressão logística (MLG)

Vários modelos de regressão logística para prever a probabilidade de desistência foram testados.
Para a seleção do modelo mais adequado, foram utilizados o teste da razão de verossimilhança e
o AIC ( Akaike Information Criterion).

As variáveis para as quais a hipótese nula do teste de Wald é rejeitada, ao nível de significância
de 5%, e portanto são covariáveis significativas no modelo, são: Escolaridade e Quantidade de
Compras do cliente. O resumo deste modelo é apresentado na Tabela 2 e na equação ( 1 ).

log ( 1−μμ )=β + β X + β X + β X + β X + β X + β X + β X .


0 1 1 2 2 3 3 4 4 5 5 6 6 7 7 (1)

Onde, μ é a média da variável desistência, X 1 é a variável idade, X 2 é a variável renda, X 3 é a


variável quantidade de compras, X 4 é uma variável dummy para quando Sexo = 1, X 5 é uma
variável dummy para quando Escolaridade = 2, X 6 é uma variável dummy para quando
Escolaridade = 3 e X 7 é uma variável dummy para quando Escolaridade = 4.

Tabela 2: Resumo do modelo de regressão logística obtido com a Equação ( 2 ).

> summary(model)

Call:
glm(formula = Desistencia ~ Idade + Renda + Compras + Sexo_Masculino +
Escolaridade_Bacharelado + Escolaridade_Mestrado +
Escolaridade_Doutorado,
family = binomial, data = train_data)

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -5.0104 2.2009 -2.277 0.02282 *
Idade -0.1175 0.8603 -0.137 0.89139
Renda 0.4281 0.9203 0.465 0.64180
Compras -4.4434 2.0489 -2.169 0.03011 *
Sexo_Masculino -1.3024 0.9851 -1.322 0.18613
Escolaridade_Bacharelado 7.9894 2.6413 3.025 0.00249 **
Escolaridade_Mestrado 4.3016 1.9194 2.241 0.02502 *
Escolaridade_Doutorado 10.2405 5.0813 2.015 0.04387 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 68.994 on 49 degrees of freedom


Residual deviance: 35.713 on 42 degrees of freedom
AIC: 51.713

Number of Fisher Scoring iterations: 6

Tabela 3: IntervaLos de confiança dos parâmetros estimados.

print(results_table)
Estimate 2.5 % 97.5 % p-value
(Intercept) -5.0104344 -10.941029 -1.5780820 0.022815411
Idade -0.1174683 -1.819115 1.6871640 0.891385452
Renda 0.4280853 -1.335950 2.3866075 0.641802809
Compras -4.4434452 -10.057183 -1.3320929 0.030107729
Sexo_Masculino -1.3024193 -3.467728 0.5601843 0.186130203
Escolaridade_Bacharelado 7.9893799 3.936901 15.0388089 0.002488485
Escolaridade_Mestrado 4.3015896 1.052018 8.8130656 0.025016180
Escolaridade_Doutorado 10.2404674 2.268891 23.7243133 0.043872606
As tabelas apresentam os resultados do modelo de regressão logística ajustado para analisar a
influência das variáveis independentes (Idade, Renda, Compras, Sexo e Escolaridade) na variável
dependente (Desistência).

Significância estatística dos parâmetros (Teste de Wald): Quanto menor o p-value (menor
que 0.05) associado a um coeficiente, mais significativo é o seu efeito na variável resposta.

Intercept: O Intercepto representa o logaritmo natural da odds de "Desistência" quando todas as


outras variáveis independentes são iguais a zero. Neste modelo, o valor estimado é -5.0104344, o
que significa que, mantendo todas as outras variáveis constantes, a odds de desistência é exp(-
5.0104344)= 6.668006e-03 vezes menor quando todas as variáveis independentes são iguais a
zero.

Idade: O coeficiente estimado para a variável "Idade" é -0.1174683. No entanto, esse coeficiente
não é estatisticamente significativo (p-valor = 0.8914). Isso indica que a idade não tem um efeito
estatisticamente significativo na probabilidade de desistência de um cliente. O valor de exp(beta)
para "Idade" é 8.891687e-01, o que indica que a odds de "Desistência" diminui em cerca de 11%
para cada unidade de aumento na idade.

Renda: O coeficiente estimado para a variável "Renda" é 0.4280853. Assim como a idade, a
renda também não é estatisticamente significativa (p-valor = 0.6418), sugerindo que a renda não
tem um efeito estatisticamente significativo na probabilidade de desistência. O valor de exp(beta)
para "Renda" é 1.534317, o que sugere que a odds de "Desistência" aumenta em cerca de 53%
para cada unidade de aumento na renda.

Compras: O coeficiente estimado para a variável "Compras" é -4.4434452. Esse coeficiente é


estatisticamente significativo (p-valor = 0.0301), indicando que o número de compras está
relacionado à probabilidade de desistência.. O valor de exp(beta) para "Compras" é 1.175537e-
02, o que indica que a odds de "Desistência" é bastante reduzida para cada unidade de aumento
nas compras, mantendo as outras variáveis constantes.

Sexo_Masculino: O coeficiente estimado para a variável "Sexo_Masculino" é -1.3024193. No


entanto, essa variável não é estatisticamente significativa (p-valor = 0.1861), indicando que o
sexo não tem um efeito estatisticamente significativo na probabilidade de desistência. O valor de
exp(beta) para "Sexo_Masculino" é 2.718732e-01, o que sugere que a odds de "Desistência" para
homens é cerca de 72% menor do que para mulheres.

Escolaridade_Bacharelado, Escolaridade_Mestrado, Escolaridade_Doutorado: As três


variáveis dummies representando diferentes níveis de escolaridade (Bacharelado, Mestrado e
Doutorado) são estatisticamente significativas. Cada uma delas tem um efeito significativo na
probabilidade de desistência de um cliente quando comparadas ao grupo de referência que é
Ensino Medio. Os valores de exp(beta) mostram a odds ratio correspondente para cada nível de
escolaridade. Por exemplo, para "Escolaridade_Bacharelado", a odds de "Desistência" é
aproximadamente 2949 vezes maior em relação ao grupo de referência.

Null deviance: 68.99– é a estatística de Deviance do modelo nulo, ou seja, o modelo sem
nenhuma variável explicativa.

Residual deviance: 35.713 on 42 degrees of freedom - é a estatística de Deviance após a


inclusão das variáveis explicativas no modelo.

AIC: 51.713

pearson_chi_square: 1327.271

Os resultados mostram evidência de rejeitar a hipótese nula, o que significa que algumas
variáveis têm um impacto significativo na probabilidade de desistência de uso do produto. Como
vimos antes, a escolaridade e o número de compras têm um efeito estatisticamente significativo
na variável resposta. Enquanto as variáveis "Sexo_Masculino", idade do cliente e renda não há
evidências de serem estatisticamente significativa no modelo ajustado.

Apos as tentativas de encontrar um modelo com interações, infelizmente, não foi possível
encontrar interações estatisticamente significativas entre as variáveis explicativas no modelo.
Isto, pode ser influenciado pelo tamanho da nossa amostra ou outros factores não considerados
neste estudo.

Quanto menor o valor da deviance residual, do qui-quadrado de Pearson e do AIC, melhor o


ajuste do modelo aos dados.
4.3. Análise de resíduos

A Figura 1 mostra que, como esperado, os resíduos não possuem distribuição normal padrão. De
fato, a distribuição, para ambos os resíduos, é assimétrica.

Histograma dos Resíduos de Pearson Histograma dos Resíduos


5

0
1

1
8
0
1
ia

ia

6
c

c
n

n
ê

ê
u

u
q
q

e
re

F
r

4
F

2
0
0

-6 -4 -2 0 2 -3 -2 -1 0 1 2

Resíduos de Pearson Resíduos

Tabela 4: Matriz de confusão


confusion_matrix
Real 0 1 Total

Previsão

0 10 0
10

1 5 7
12
Total
15 7 22
> cat("Sensibilidade:", sensibilidade, "\n")
Sensibilidade: 0.5833333

> cat("Especificidade:", especificidade, "\n")


Especificidade: 1

A partir da matriz de confusão anterior, podemos calcular diferentes métricas de avaliação do


modelo:

Sensibilidade: É a proporção de verdadeiros positivos em relação ao total de casos positivos


reais. No caso apresentado, a sensibilidade é 0.5833333, o que significa que o modelo acerta
aproximadamente 58.33% dos casos de desistência.

Especificidade: É a proporção de verdadeiros negativos em relação ao total de casos negativos


reais. No caso apresentado, a especificidade é 1, o que significa que o modelo acerta 100% dos
casos de não desistência.

Figura 2: Curva ROC (quando o modelo é aplicado a todo o conjunto de dados).

Curva ROC
1.0
0.8
0.6
Sensitivity
0.4
0.2
0.0

1.5 1.0 0.5 0.0 -0.5


Specificity

Área sob a curva (AUC): 0.9619048


Como R > 0,9 , então podemos dizer que o modelo consegue discriminação excepcional.

SECÇÃO V.

5. CONCLUSÃO

Antes de ajustar o modelo, realizamos a limpeza e pré-processamento dos dados, verificando a


presença de valores ausentes e convertendo as variáveis categóricas sexo e escolaridade do
cliente em representações numéricas apropriadas, como dummy variables.

Inicialmente, ajustamos um modelo de regressão logística com todas as variáveis independentes


e suas interações. Ao analisar os resultados, notamos que as interações não eram estatisticamente
significantes, o que poderia ser indicativo de multicolinearidade nos modelos ou falta de
informação suficiente para essas interações.

Interpretamos os coeficientes estimados do modelo e seus valores de exp(beta) para obter


insights sobre como cada variável afecta as odds de desistência. Constatamos que apenas as
variáveis escolaridade e quantidade de compras do cliente têm um impacto significativo nas
chances de desistência e as outras não são estatisticamente significativas.

Quanto à qualidade do ajuste do modelo, através de várias análises dos resíduos, incluindo o
histograma dos resíduos e o gráfico de resíduos de Pearson versus valores ajustados, observamos
que os resíduos estão distribuídos aproximadamente de forma simétrica em torno de zero e não
há padrões visíveis nos gráficos. O modelo tem um ajuste aceitável comparativamente com os
outros.

Avaliamos o desempenho do modelo usando a matriz de confusão, que nos fornece informações
sobre a taxa de acertos e erros de classificação do modelo, bem como as métricas de
sensibilidade e especificidade para verificar sua capacidade de identificar corretamente os casos
de desistência, onde contatou-se que a sensibilidade é de 0.583333, ou seja, o modelo acerta
aproximadamente 58.33% dos casos de desistência e a a especificidade é 1, o que significa que o
modelo acerta 100% dos casos de não desistência.
Traçamos a curva ROC (Receiver Operating Characteristic) para avaliar a taxa de verdadeiros
positivos em função da taxa de falsos positivos em diferentes pontos de corte. A área sob a curva
ROC (AUC) é uma métrica comum para medir a capacidade discriminativa do modelo e para o
nosso caso uma área excepcional igual a 0.96.

6. REFERÊNCIAS BIBLIOGRÁFICAS

Kleinbaum, D., Kupper, L., & Muller, K. Applied Regression Analysis and Other Multivariate
Methods. USA: Duxbury Press. 1998.

Stokes, M. E., Davis, C. S., & Koch, G. G. Categorical Data Analysis using The SAS System.
Cary,NC: SAS institute Inc. 2000.

Turkman, M. A., & Silva, G. L.Modelos Lineares Generalizados - da teoria à prática. Lisboa:
Edições SPE. 2000.

KOTLER, Philip. Administração de marketing. 5.ed. São Paulo: Altas, 1998.

MOWEN, Jonh C; MINOR, Michael S. Comportamento do consumidor. São Paulo: Prentice


Hall, 2003.

Lopes, J. L. Fundamental dos Estudos de Mercado- Teoria e Prática. Edições Sílado.2007.


ANEXOS

1. Copdigos usar em R para produção de outputs

library(dplyr)

library(ggplot2)

# Carregue os dados

data=Base1

# Converter as variáveis categóricas em dummy

data_encoded <- data %>%

mutate(Sexo_Masculino = ifelse(Sexo == "Masculino", 1, 0),

Escolaridade_Bacharelado = ifelse(Escolaridade == "Bacharelado", 1, 0),

Escolaridade_Mestrado = ifelse(Escolaridade == "Mestrado", 1, 0),

Escolaridade_Doutorado = ifelse(Escolaridade == "Doutorado", 1, 0)) %>%

select(-Sexo, -Escolaridade)

# Converter a variável binária "Desistencia" para valores numéricos (0 ou 1)

data_encoded$Desistencia <- ifelse(data_encoded$Desistencia == "Sim", 1, 0)

# Dividir os dados em conjunto de treinamento e teste (70% para treinamento, 30% para teste)

set.seed(42) # Define a semente para reproduzibilidade dos resultados

train_indices <- sample(1:nrow(data_encoded), 0.7 * nrow(data_encoded))

train_data <- data_encoded[train_indices, ]

test_data <- data_encoded[-train_indices, ]

# Padronizar as variáveis numéricas (exceto as variáveis dummy)

# É importante padronizar apenas as variáveis numéricas para manter a interpretação das variáveis dummy.

train_data[, c("Idade", "Renda", "Compras")] <- scale(train_data[, c("Idade", "Renda", "Compras")])

test_data[, c("Idade", "Renda", "Compras")] <- scale(test_data[, c("Idade", "Renda", "Compras")])

# Ajustar o modelo

model <- glm(Desistencia ~ Idade + Renda + Compras + Sexo_Masculino + Escolaridade_Bacharelado +

Escolaridade_Mestrado + Escolaridade_Doutorado, family = binomial, data = train_data)


summary(model)

# Calcular os resíduos de deviance

residuals <- residuals(model, type = "deviance")

# Criar um gráfico de dispersão dos resíduos de deviance

ggplot() +

geom_point(aes(x = fitted(model), y = residuals), color = "blue", alpha = 0.6) +

geom_hline(yintercept = 0, linetype = "dashed", color = "red") +

labs(title = "Gráfico de Resíduos de Deviance",

x = "Valores Previstos",

y = "Resíduos de Deviance")

# Obter o qui-quadrado de Pearson do modelo

pearson_chi_square <- sum(model$residuals^2)

# Obter o AIC do modelo

aic <- AIC(model)

# Realizar testes de hipóteses para cada coeficiente

coef_test <- summary(model)$coefficients

# Coeficientes estimados pelo modelo de regressão logística

coeficientes <- coef(model)

# Exponencial dos coeficientes (exp(beta))

exp_beta <- exp(coeficientes)

# Imprimir os valores exp(beta)

print(exp_beta)

# Obter os valores-p

p_values <- coef_test[, "Pr(>|z|)"]

# Obter os intervalos de confiança

conf_intervals <- confint(model)

# Criar uma tabela com os resultados

results_table <- cbind(coef_test[, "Estimate"],exp_beta)

# Adicionar os nomes das variáveis ao resultado

colnames(results_table) <- c("Estimate","exp_beta")

# Imprimir a tabela de resultados

print(results_table)

Você também pode gostar