Seminario Machine Learning

PRODUTO & PRODUÇÃO, vol. 24, n.2, p. 83-109. 2023*.
Aplicação de técnicas de aprendizado de máquina para classificar a
satisfação de clientes de serviços de telefonia celular
Luiz Gonzaga Lacerda de Athayde Neto

Universidade Tecnológica Federal do Paraná (UTFPR)
e-mail: luizglaneto@icloud.com
Rafael Henrique Palma Lima

e-mail: rafaelhlima@utfpr.edu.br
Bruno Samways dos Santos

e-mail: brunosantos@utfpr.edu.br
Matheus Raphael Elero

Universidade Estadual de Maringá (UEM)
e-mail: matheuselero1@gmail.com
*
RECEBIDO em 01/05/2023. ACEITO em 18/10/2023.
Resumo
Medir a qualidade dos serviços de telecomunicações móveis é muito importante para operadoras de
telefonia, já que existem mais aparelhos celulares do que habitantes no território brasileiro. A qualidade
nesse setor é medida através da satisfação dos clientes, cujos dados podem ser coletados por meio de
questionários. Com isso, a utilização de técnicas de aprendizado de máquina (AM) pode ajudar a melhor
compreender os fatores que afetam a classificação dos usuários de telefonia celular. Neste contexto, o
objetivo deste trabalho é aplicar técnicas de AM em uma base de dados da Agência Nacional de
Telecomunicações (ANATEL) para determinar quais são os fatores mais importantes no serviço de
telecomunicações para a satisfação dos clientes das operadoras. Este estudo também avaliou o grau de
satisfação de clientes considerados neutros segundo a escala Net Promoter Score (NPS). Os resultados
indicam que o algoritmo Random Forest apresentou os melhores resultados em termos de desempenho
preditivo. Com relação às importâncias dos atributos, percebeu-se que a qualidade da internet, em
estabilidade ou velocidade, tem muita importância na satisfação dos clientes.
Palavras-chave: Aprendizado de máquina; Qualidade em serviços; NPS; Satisfação; Telefonia móvel.
Abstract
Measuring the quality of mobile telecommunications services is very important for phone operators, as
there are more mobile devices than inhabitants in the Brazilian territory. Quality in this sector is
measured through customer satisfaction, whose data can be collected through questionnaires.
Therefore, machine learning techniques can help better understand the factors that affect the rating of
mobile phone users. In this context, this work aims to apply machine learning techniques to a database
from National Telecommunications Agency (ANATEL) to determine which factors are most important
in the telecommunications service for customer satisfaction of operators. This study also evaluated the
level of satisfaction of customers considered neutral according to the Net Promoter Score (NPS). The
results indicate that the Random Forest algorithm presented the best results in terms of predictive
performance. Regarding the importance of attributes, it was noticed that internet quality, in terms of
stability or speed, is essential for customer satisfaction.
Keywords: Machine learning; Service quality; NPS; Satisfaction; Mobile telecommunication.
1. Introdução
Desde os anos 1990 a telefonia móvel teve um crescimento rápido e já no início dos anos 2000,
grande parcela da população já possuía um aparelho celular (LACOCHÉE; WARKEFORD;
PEARSON, 2003). As tecnologias móveis de comunicação têm tido um papel essencial não apenas na
comunicação entre as pessoas, mas também na redefinição de comportamentos de indivíduos, padrões
em interações sociais e criação de novos mercados (HARRIS; COOPER, 2019).
Devido à necessidade dos clientes em estarem constantemente conectados, as empresas de
telecomunicações devem prestar serviços de alta qualidade, pois com tantas opções e a facilidade em se
trocar de operadora, o consumidor tem um poder maior de exigência em mãos. Com isso, as empresas
de telecomunicações vêm analisando como fidelizar o consumidor, e para isso estão estudando cada vez
mais sobre a qualidade do serviço entregue, bem como o valor agregado e o grau de satisfação
proporcionado aos usuários (CRONIN et al., 2000).
De acordo com Hoffman e Batesom (2003), a satisfação é entendida como uma medição que
avalia o quão bom o serviço entregue está de acordo com as expectativas dos clientes. Assim, essa
avaliação pode ser vista sob duas óticas: a ótica empresarial, na qual é preciso definir quais são as
necessidades dos clientes de uma forma clara e então, formular os requisitos de qualidade, tanto em
serviço, como em produto; e a ótica do consumidor, uma visão multidimensional onde se avalia o serviço
ou produto por uma variedade de características (NASCIMENTO, 2017).
Para medir a satisfação de clientes, diversas empresas têm utilizado questionários como o Net
Promoter Score (NPS), Customer Satisfaction Score (CSAT) e o Costumer Effort Score (CES) (SILVA
et al., 2020). Alguns questionários podem ser desenvolvidos por empresas normativas como a ANATEL
(Agência Nacional de Telecomunicações), que todo ano realiza uma pesquisa para que os consumidores
expressem suas impressões utilizando as operadoras de serviços de telecomunicação como referência.
A aplicação de algoritmos de aprendizado de máquina (AM) em pesquisas de satisfação pode ajudar a
entender quais são os fatores dominantes, aumentando a efetividade dessas pesquisas no apoio à tomada
de decisões (MARKOULIDAKIS et al., 2020). Por exemplo, autores como Balachandran et al. (2013),
defendem que a melhor forma de lidar com dados complexos baseados em métricas de qualidade é o
aprendizado de máquina orientado com dados. Consequentemente, o uso de técnicas de AM pode ajudar
a prever a classificação na satisfação de clientes que utilizam serviços de telecomunicação móvel e
identificar os pontos mais influentes na percepção de satisfação pelos usuários.
O tema de aprendizado de máquina vem crescendo tanto no mundo acadêmico como no
ambiente empresarial, tornando-se parte do cotidiano de um número crescente de pessoas (SOLIMAN
et al., 2023). Algoritmos que detectam o comportamento humano perante experiências boas ou ruins
são muito importantes para a melhoria dos serviços ofertados (MARKOULIDAKIS et al., 2020).
Tratando-se de serviços de telecomunicação, Tong et al. (2017) argumentam que quanto mais tempo um
cliente utiliza os serviços ou produtos de empresas de telecomunicações, mais experiências terão, e com
isso a fidelidade será maior.
Há na literatura diversos trabalhos que utilizam AM para avaliar a satisfação no setor de
serviços. O trabalho de Cox e Bell (1996) aplicaram o algoritmo de Decision Tree para a classificação,
utilizando como base de dados um questionário de satisfação de clientes para entender quais eram os
atributos mais importantes ao classificá-los. Na mesma linha, Li et al. (2018) também utilizaram o
Decision Tree para a classificação de um questionário sobre satisfação, porém adicionando alguns
algoritmos para comparação como o k-nearest neighbours, Naïve Bayes e Regressão Logística.
Tomando como atributo de saída a escala NPS (do inglês, Net Promoter Score), Tong et al.
(2017) e Markoulidakis et al. (2020), utilizaram algoritmos de aprendizado de máquina para classificar
pesquisas de satisfação. O primeiro autor utilizou XGboost e Decision Tree enquanto o segundo Redes
Neurais e Random Forest. Ambos defenderam que um modelo bem parametrizado e adequado para a
pesquisa/questionário pode melhorar a economia de recursos consumidos por amplas pesquisas de
satisfação.
Nesse contexto, o objetivo deste trabalho é aplicar técnicas de AM para analisar os dados do
questionário aplicado pela ANATEL no setor de telefonia móvel para identificar os fatores que
influenciam na satisfação dos usuários desse serviço. O questionário possui questões relacionadas com
a satisfação sobre diversos aspectos do serviço usando uma escala de 1 a 10, similar à usada na escala
NPS, o que também possibilitou a avaliação do papel dos clientes neutros com relação à satisfação com
o serviço.
O restante do artigo está organizado da seguinte forma. A Seção 2 descreve brevemente as
técnicas de AM utilizadas e a Seção 3 discute o conceito de satisfação no setor de telefonia móvel. A
Seção 4 descreve o método de pesquisa e a estrutura da base de dados usada na pesquisa. A Seção 5
apresenta os resultados de dois modelos propostos para analisar a base de dados, e a discussão sobre os
resultados se encontra na Seção 6. Por fim, a Seção 7 sintetiza as conclusões desta pesquisa.
2. Aprendizado de Máquina e Técnicas de Classificação
Desde 1970 existe uma disseminação de técnicas de Inteligência Artificial (IA). Muito disso é
pelo fato do grande número de dados gerados por diferentes setores, surgindo uma busca por um
programa computacional que solucionasse problemas a partir do mesmo, sem o uso da interferência
humana (CARVALHO et al., 2011).
Para tal, é necessário que o programa computacional aprenda com uma base de dados,
resolvendo problemas apenas utilizando fatos que já aconteceram. Graças à etapa de aprendizagem, o
ser-humano é capaz de automatizar tarefas cotidianas, e as “regras” destas tarefas podem ser aprendidas
por meio dos algoritmos. Quando é empregada a habilidade de aprender e reconhecer padrões em
programas de computador, tem-se o aprendizado de máquina (AM, ou do inglês machine learning)
(KONAR, 1999).
AM pode ser considerado um conjunto de algoritmos que aprendem as relações (não lineares)
entre variáveis, utilizando técnicas mineração de dados (SIROOSI et al, 2020). Para Fayyad et al.,
(1996), a mineração de dados foca em implementar o processo de análise de dados, modelando,
avaliando, extraindo e compreendendo-a.
A mineração de dados contempla uma área chamada de análise de dados, incluindo todas as
tarefas que buscam derivar padrões de conhecimento de grandes conjuntos de dados, traduzindo-os em
conhecimentos úteis para alavancar a tomada de decisões (TYAGI, 2003).
No entanto, deve-se notar que, em contraste com a IA tradicional, AM não tem por objetivo
único automatizar uma tarefa que o ser humano faria de forma repetitiva ou demorada, mas usar o poder
computacional para complementar a inteligência humana. Por exemplo, a capacidade de digitalizar e
processar enormes bancos de dados, permitindo que algoritmos de AM detectem padrões que estão fora
do escopo da percepção humana (SHALEV-SCHWARTZ; BEN-DAVID, 2014).
Do ponto de vista computacional, AM caracteriza-se como algoritmos de computador que
através da experiência vão aprendendo e melhorando (ERTEL, 2017). De forma similar, Li et al. (2018)
sustentam que, em AM os computadores aprendem com experiências passadas usando da indução para
obter conclusões através de um exemplo. Esses exemplos, podem conter atributos como: nome, idade,
peso, altura. Um desses atributos será considerado o atributo de saída (classe ou rótulo), cujos valores
podem ser estimados ou classificados utilizando os valores dos demais atributos, que são chamados de
atributos de entrada (atributos preditores) (CARVALHO et al., 2011).
A tarefa de classificação é uma das mais utilizadas no contexto de AM (BRAMER, 2016). Esta
tarefa faz o uso de algoritmos de aprendizagem supervisionada para a predição (ou classificação) de
novas instâncias, desta forma, ela necessita de uma variável ou atributo de saída para orientar o seu
treinamento, sendo este atributo categórico (RASCHKA, 2015; GÉRON, 2019). Muitas técnicas podem
ser aplicadas neste contexto, e para este artigo, foram utilizadas a Regressão logística, k-vizinhos mais
próximos, Árvore de decisão, Naïve Bayes, Support vector machine (SVM), Random Forest e Redes
neurais artificiais.
Regressão logística (logistic regression - LR), é um modelo estatístico que em sua forma básica
utiliza uma função logística para modelar uma variável dependente binária. Matematicamente, um
modelo logístico binário possui uma variável dependente com dois valores possíveis, como passa/falha,
que é representada por uma variável indicadora, onde os dois valores são rotulados como 0 e 1. A
característica definidora do modelo logístico é que uma das variáveis independentes escala
exponencialmente as chances do resultado dado a uma taxa constante, com cada variável independente
tendo seu próprio parâmetro (MARKOULIDAKIS et al. 2020). Suas vantagens são fornecer
probabilidades e problemas de classificação em várias classes, naturalmente (HASTIE et al., 2009).
O algoritmo k-vizinhos mais próximos (k-nearest neighbours - KNN) é um método não
paramétrico usado para classificação e regressão. Um voto majoritário de seus vizinhos classifica um
objeto, com o objeto sendo atribuído à classe mais comum entre seus k vizinhos mais próximos.
Portanto, possui o seu aprendizado baseado em instâncias, onde a função é apenas aproximada
localmente e toda a computação é adiada até a classificação. Frequentemente, uma variação do algoritmo
KNN é usada para diminuir a variação do parâmetro k, tornando-o mais estável a essa variação
(MARKOULIDAKIS et al. 2020). É considerado um aprendiz preguiçoso (lazy learner), por deixar o
seu custo computacional atrelado diretamente à etapa de teste do algoritmo (GUO et al., 2003).
A técnica de Árvore de decisão (decision tree - DT), é um modelo onde cada nó irá ser a
representação da decisão que utilizará as entradas como uma folha, até que a previsão seja alcançada
(MORO, 2020). Ele usa uma árvore baseada em regras para ir de observações sobre um item a
conclusões sobre o valor alvo do item. Nessas estruturas de árvore, “folhas” representam rótulos de
classe, e os “ramos” representam conjunções de características que levam a esses rótulos de classe. As
árvores de decisão em que a variável de destino pode receber valores contínuos, geralmente números
reais, são chamadas de árvores de regressão (MARKOULIDAKIS et al. 2020).
Naïve Bayes (NB) é um algoritmo eficiente e baseia-se em probabilidade, mais especificamente,
no Teorema de Bayes. Desta forma, a técnica considera que há independência entre todos os atributos
de entrada, com cada um deles tendo a mesma contribuição para as classes analisadas. Bramer (2016)
comenta que este algoritmo tem uma simplicidade em seus cálculos por fornecer, em uma única equação,
uma combinação de probabilidade a priori e probabilidades condicionais. Estas equações são aplicadas
para cada uma das classes envolvidas, escolhendo-se a classe com a maior probabilidade de ocorrência.
Support Vector Machine (SVM) é uma técnica oriunda do aprendizado estatístico e pode ser
modelado com um problema de otimização (SUGUMARAN et al., 2008), e o seu objetivo é maximizar
as margens do hiperplano (separador de decisão) que é criado entre as instâncias de treinamento. As
instâncias pertences à esta margem são chamadas de vetores de suporte (RASCHKA, 2015).
A Floresta aleatória (do inglês Random Forest – RF) é um conjunto de DT que acabam
transformando classificadores fracos (weak learners) em fortes (strong learnears), e isso só é possível
pela quantidade de variações de subconjuntos de atributos e instâncias utilizadas em cada DT
(BREIMAN, 2001). Para a criação deste classificador, são construídas várias DTs em paralelo e
independentes, classificação uma nova instância a partir da classe majoritária resultante das
classificações feitas por cada árvore.
Por fim, as Redes neurais artificiais, são um grupo de nós comparados à imensa rede neural de
um cérebro, ou seja, um modelo de várias camadas de entradas que resultam em uma saída, sendo assim,
é como se cada nó fosse um neurônio. As redes neurais conhecidas como multilayer perceptron (MLP)
são divididas em três camadas: camada de entrada, camada oculta e camada de saída, sendo a oculta, a
camada que se encontra entre a de entrada e saída (GUPTA; MISHRA, 2017). As redes MLP podem ser
ótimas técnicas, porém necessitam de uma boa investigação sobre os seus hiperparâmetros (GÉRON,
2019).
3. Satisfação em Telefonia Móvel
De acordo com dados da ANATEL (2022), há no Brasil cerca de 260 milhões de ligações ativas
de telefonia celular. Isso mostra a importância desse serviço para a população e as companhias que o
oferecem tem como prioridade ofertar um serviço de qualidade, principalmente no quesito de
disponibilidade de sinal. De acordo com pesquisa publicada pela ANATEL (2023), a satisfação média
dos clientes de telefonia móvel pré-paga é 7,70 em uma escala de 0 a 10, enquanto a satisfação média
com a telefonia móvel pós-paga tem média igual a 7,30, o que indica que há espaços para melhoria por
parte das empresas.
Apesar de certas restrições quanto ao custo, disponibilidade, padrões universais e segurança, as
tecnologias de informação móveis e sem fio se propagam mundialmente e, da mesma forma, no mercado
brasileiro (SACCOL; REINHARD, 2007). Constantemente tentando acompanhar a demanda por
serviços de dados, provedores de serviços móveis investem significativamente em tecnologia de
comunicação (PENG et al., 2014). Como tal, a indústria de telecomunicações móveis engloba
características das indústrias de alta tecnologia e serviços colaborando ao desenvolvimento da
informação e comunicação tecnológica que influencia profundamente todas as fases da vida moderna, o
que favorece para a eficiência e eficácia com que organizações e indivíduos realizam suas atividades
diárias (BOAKYE et al., 2012).
A fim de atrair novos assinantes, bem como manter os atuais clientes, as operadoras de serviços
móveis precisam entender qual o peso do valor percebido de seus produtos, da satisfação e fidelização
na utilização de serviços móveis (KUMAR; LIM, 2008).
No Brasil, a ANATEL monitora o desempenho o serviço prestado por todas as operadoras
homologadas no país. A Tabela 1 mostra quais são os indicadores utilizados pela ANATEL, bem como
as metas de nível de serviço:
Tabela 1 – Indicadores de Qualidade.
Indicadores Meta
Taxa de alocação de canal de tráfego >95%
Taxa de queda de ligação < 2%
Taxa de conexões de dados >98%
Taxa de queda das conexões de dados < 5%
Garantia de taxa de transmissão média contratada >80%
Taxa de atendimento pela telefonista/ atendente em sistemas de autoatendimento >90%
Garantia de taxa de transmissão média contratada >80%
Taxa de atendimento pela telefonista/ atendente em sistemas de autoatendimento >90%
Taxa de alocação de canal de tráfego >95%
Taxa de queda de ligação < 2%
Taxa de conexões de dados >98%
Taxa de queda das conexões de dados < 5%
Fonte: Adaptado de ANATEL (2022)
A ANATEL (2022) monitora a quantidade e o motivo das reclamações contra cada operadora,
o tempo de resposta e a qualidade das respostas fornecidas. Esses dados são usados para calcular e
divulgar o Ranking das Operadoras, possibilitando conhecer e comparar quais atendem melhor as
demandas do consumidor. Esses indicadores ajudam a identificar os principais problemas para atuar de
forma preventiva ou mesmo aprimorar as regras existentes e a realizar, quando necessário, ações de
fiscalização, de acompanhamento e controle, que podem resultar em multas contra as operadoras e
medidas cautelares. A Figura 1 mostra os cumprimentos de metas em 2021.
Figura 1 – Cumprimento Das Metas 2021.

Fonte: Adaptado de ANATEL (2022)
3.1 Aplicação de AM à Satisfação em Telefonia Móvel
A literatura acadêmica possui alguns trabalhos em que algoritmos de AM foram aplicados para
analisar dados de satisfação com serviços de telecomunicações. Em tais trabalhos, as técnicas de AM
ajudaram a entender quais são os fatores determinantes na satisfação dos clientes, aumentando o
desempenho de acerto na classificação e fornecendo uma visão mais completa acerca dos clientes
promotores e detratores (MARKOULIDAKIS et al., 2020).
O trabalho de Cox e Bell (1996) foi um dos pioneiros nessa área ao aplicar DT em dados de
satisfação no setor de telecomunicações. Segundo os autores, a aplicação de AM à satisfação no setor
de telecomunicações causa uma reflexão aos negócios, e ajuda a localizar os fatores centrais para a
composição de objetivos por parte das empresas, como as variáveis ainda não exploradas, que se
relacionam com a satisfação. Isso gera uma gama nova de oportunidades de melhoria, podendo o AM
ser usado de forma preditiva com relação aos impactos das ações na satisfação dos clientes e quais
fatores causam muito impacto para mudanças no serviço de telecomunicações (COX; BELL, 1996).
Para Markoulidakis (2020), o método de análise com AM para aplicação do NPS pode apoiar
decisões estratégicas, visto que diversos atributos contribuem para a satisfação dos usuários, tais como
política tarifária, satisfação de serviços móveis e online. A pesquisa mostrou que o NPS, por ser uma
métrica única, pode ser trocado por um índice multidimensional, contribuindo para aumentar o
desempenho das decisões tomadas a partir da análise da base de dados.
Djatna e Kusuma (2017) avaliaram a satisfação de serviços de telecomunicação com diversas
técnicas de AM e concluíram que o método mais assertivo foi o NB multinominal, pelo fato de usarem
a classificação a partir de contagem palavras.
Na mesma linha, Burhanuddin et al. (2018) argumentaram que a interpretação das palavras
contidas em textos dá mais força para combater a concorrência no setor de serviços de telecomunicações
móveis. Os autores usaram a técnica Naive Bayes para analisar o desempenho dos serviços prestados,
auxiliando na tomada de decisão, o que pode gradualmente elevar a satisfação dos clientes e melhorar
continuamente a qualidade do sistema.
De acordo com Li et al. (2018), com os dados já apresentados das empresas de telecomunicações
com o NPS, é possível criar uma clusterização, subdivida em grupos, resultando em um mapa NPS-
ARPU, que busca alcançar quais os fatores chaves da melhoria da experiência, e fornece recomendações
operacionais, aumentando a satisfação dos clientes
4. Método de Pesquisa
Para esta pesquisa foi selecionada a base de dados com as respostas da pesquisa de satisfação
do consumidor realizada pela ANATEL (disponível em: https://dados.gov.br/dados/conjuntos-
dados/pesquisas-de-satisfacao-e-qualidade-percebida), aplicada desde 2015 no setor de serviços de
telecomunicação móvel.
A base de dados completa é constituída de 34.038 linhas e 85 colunas para respondentes que
utilizam serviços de telecomunicação celular pré-pagos ou pós-pagos, sendo cada linha um entrevistado
da pesquisa de satisfação. Para auxiliar na aplicação e interpretação dos resultados, um manual foi
publicado pela ANATEL (2018) descrevendo o fluxo e os significados das questões. O manual informa
que a coleta se dá da seguinte forma: a empresa que faz a pesquisa recebe da ANATEL os lotes contendo
telefone de contato das amostras (sorteadas aleatoriamente), contendo uma relação de até 40 vezes a
amostra, sendo que caso necessário podem ser enviados lotes extras. Antes da coleta a base de dados
recebida é randomizada novamente, porém agora pela empresa pesquisadora para, na sequência, iniciar
as coletas.
Para se ter um panorama geral da distribuição dos respondentes na base de dados, a Figura 2
mostra o número de respondentes por operadora.
Figura 2 – Respondentes por Operadora.
A Figura 3, apresenta a quantidade de respondentes por estado. De acordo, com o manual da

ANATEL, todos os estados brasileiros participam da pesquisa. Porém nota-se que o número de
respondentes não é proporcional à população dos estados, sugerindo que há uma tentativa de usar uma
quantidade igual de respondentes por estado.
Figura 3 – Respondentes Por Estado.
4.1. Composição Geral Dos Dados
As 78 colunas de perguntas são preenchidas de acordo com a Tabela 2, baseada no manual de

aplicação da ANATEL. As respostas possuem 4 tipos de entrada dos dados, sendo variáveis “livres” ou
de “seleção”, na quais se misturam textos e números. Os outros dois tipos são binários ou escala Likert.
Quando binário o valor pode assumir apenas duas opções “1” ou “2”, sendo “1” igual a “sim” e “2”
igual a “não” e na escala Likert o valor assumido vai de 0 a 10, representando o nível de satisfação do
respondente à determinada pergunta.
Tabela 2 – Indicadores de Qualidade.
Tipo Descrição dos parâmetros
Campo de livre preenchimento com perguntas pessoais, como quantidade de pessoas na

Livre
família
Seleção com lista suspensa de opções, onde o respondente marca uma delas, podendo
Seleção
seguir o exemplo, Estado, sexo e faixa de idade.
Perguntas objetivas sobre a execução de uma ação por parte do entrevistado, exemplo, se o
Sim ou não
consumidor solicitou atendimento pelo canal eletrônico da operadora.
Escala Likert Nível de satisfação com algum serviço prestado, variando de 0 a 10.
A Figura 4 mostra a evolução da satisfação média dos clientes por ano dos clientes de serviço
pré e pós-pago.
Figura 4 – Satisfação Média Dos Serviços Pré-pagos e Pós-pagos.
É notório que a satisfação média dos últimos anos, tanto para serviços pós-pagos como pré-
pagos, vem aumentando de acordo com o índice de satisfação da ANATEL, com dois saltos perceptíveis
entre 2017 e 2018, 2019 e 2020 onde a diferença chega a ser maior de que 0,2 ponto na nota. Já a Figura
5 mostra a satisfação média de cada operadora por ano com serviços pós-pagos.
Figura 5 – Satisfação Por Operadora De Serviços Pós-Pago.
Com a observação das curvas das operadoras, percebemos que a Oi, operadora que obteve mais
respondentes, ficou com uma nota bem abaixo das demais com 6,87 o destaque fica com a Claro que
obteve 7,75 de nota. Para uma visualização similar, a Figura 6, mostra a satisfação por ano de operadoras
com serviços pré-pagos.
Figura 6 – Satisfação Por Operadora De Serviços Pré-Pago.

Quando se trata de serviço pré-pago, a Oi novamente aparece com a nota mais baixa de 7,29
mesmo tendo um maior número de respondentes. A Claro que tem a maior nota em serviços pós,
manteve a constância e aparece como segunda maior nota 7,66 logo atrás da Algar que teve nota de
7,79.
4.2. Estrutura do Questionário
O questionário da pesquisa é dividido em várias seções, sendo algumas questões obrigatórias,

enquanto outras somente são respondidas dependendo de respostas anteriores. A Tabela 3 descreve as
seções que compõem a estrutura do questionário.
Tabela 3 – Composição Do Questionário.
Seção Descrição dos parâmetros
Identificação, tipo, operadora, estado, data, ano, área de trabalho, tipo do

Informações gerais
usuário, pessoa física ou jurídica, idade e sexo.
Satisfação geral do consumidor Nível de satisfação do cliente em formato de NPS.
Qualidade da informação ao Nível de satisfação com o funcionamento do serviço e cobrança em escala

consumidor Likert.
Perguntas de sim ou não caso o cliente já tenha entrado em contato pelos
canais de atendimento, se fez contato para solucionar problemas, se
Qualidade do canal de solicitou alteração no plano, se solicitou cancelamento, alguma instalação
atendimento ao consumidor ou reparos. Para cada pergunta respondida com um sim, o respondente
deverá indicar o seu nível de satisfação com o serviço. Subdividido em
duas partes.
Perguntas de sim ou não se o cliente assiste vídeos em plataformas de
Padrão de usuário stream, se acessa sites em geral, redes sociais, envio de fotos e vídeos por
aplicativos, faz chamadas de vídeos ou joga online.
Avalia a qualidade dos serviços de acordo com as respostas do Padrão de
Qualidade do funcionamento
usuário em escala Likert, subdividido em duas partes.
Qualidade da cobrança ou Avalia a qualidade da cobrança e recarga referentes a faturas de serviços,
recarga em escala Likert.
5. Resultados
A base de dados do questionário possui diversas colunas com valores vazios, pois algumas
questões são opcionais. Primeiramente foi realizada uma análise referente às colunas vazias e foram
detectadas 22 colunas que não possuíam valores preenchidos. Assim, as colunas QF1_1, QF1_6, QF2_2,
QF2_3, QF3_1, QF3_2, P2b, P7, QA1_97, QA4_8, QA4_9, QA4_10, QA4_11, QA4_98, QA5_1,
QA5_2, QA5_99, PU0_1, PU0_2, PU7, E1_4 e MODALIDADE foram removidas.
Após isso, as demais colunas foram avaliadas com relação à porcentagem de valores
preenchidos, com o intuito de identificar colunas que poderiam ser removidas devido à insuficiência de
dados (vide Tabela 4). Dessa maneira, colunas com menos de 50% de valores preenchidos foram
removidas da base de dados por não possuírem dados suficientes para as análises com técnicas de ML.
Tabela 4 – Porcentagem de valores preenchidos por coluna.

Coluna Qtd Valores % Preenchido Coluna Qtd Valores % Preenchido
SERVICO 34038 100,00% P4 34038 100,00%
MARCA 34038 100,00% P6 34038 100,00%
ESTADO 34038 100,00% QA1_1 7231 21,24%
MUNICIPIO 34038 100,00% QA1_2 15053 44,22%
COD_IBGE 34038 100,00% QA1_3 8184 24,04%
DATA 34038 100,00% QA1_4 13033 38,29%
ANO_BASE 34038 100,00% QA1_5 8057 23,67%
SG1 34010 99,92% QA1_99 10558 31,02%
SG2 33793 99,28% QA4_1 17224 50,60%
SG3 33926 99,67% QA4_2 6719 19,74%
QIC1 33849 99,44% QA4_3 4959 14,57%
QIC2 17334 50,93% QA4_4 5696 16,73%
QIC3 16331 47,98% QA4_5 5823 17,11%
QA2_1 15035 44,17% QA4_6 8207 24,11%
QA2_2 15026 44,14% QA4_7 11480 33,73%
QA2_3 15024 44,14% QA4_99 970 2,85%
QA3_1 17982 52,83% PU1 34038 100,00%
QA3_2 17972 52,80% PU2 34038 100,00%
QA3_3 17973 52,80% PU3 34038 100,00%
QF1_2 28219 82,90% PU4 34038 100,00%
QF1_3 26162 76,86% PU5 34038 100,00%
QF1_4 17653 51,86% PU6 34038 100,00%
QF1_5 24646 72,41% QCR0 16502 48,48%
QF2_1 33917 99,64% E1_1 1664 4,89%
QCR1_1 15483 45,49% E1_2 2829 8,31%
QCR1_2 15243 44,78% E1_3 4309 12,66%
QCR2_1 17228 50,61% E1_5 3869 11,37%
QCR2_2 17401 51,12% E1_996 9012 26,48%
ISG 34036 99,99% E1_999 147 0,43%
QAD 18017 52,93% ID1 34038 100,00%
QAT 15049 44,21% ID2 34038 100,00%
QIC 33955 99,76% ID3 34038 100,00%
QF 33994 99,87% ID3a 31757 93,30%
QCR 33035 97,05% ID5 34038 100,00%
P2 34038 100,00% A1 34038 100,00%
P2a 34038 100,00% PESO 34038 100,00%
Após isso, a base de dados foi analisada para buscar variáveis que poderiam ser removidas por
não estarem relacionadas com a satisfação do cliente, tais como perguntas nas quais eram dependentes
de respostas anteriores, gerando um número muito baixo de respostas, colunas que representavam a
satisfação do serviço geral (SG1 e SG2) no qual criou-se um viés muito alto aos modelos ou perguntas
que fugiam do âmbito da satisfação. A Tabela 5 sintetiza as questões que foram removidas da base.
Tabela 5 – Atributos Retirados Da Base De Dados.

Código da
Definição Motivo da retirada
questão
SG (1,2,3) Satisfação Geral Colunas utilizadas como variável de saída
QA (todas) Qualidade no atendimento Menos de 50% de respondentes
QCR (1, 1.1, 1.2, Qualidade na cobrança ou

Menos de 50% de respondentes
2, 2.1, 2.2) recarga
QF (1.1, 1.4, 1.6,
Qualidade do funcionamento Menos de 50% de respondentes
2.2, 2.3, 3.1, 3.2)
Qualidade da informação ao
QIC (2, 3.A, 3.B) Menos de 50% de respondentes
consumidor
P2 Idade Foi mantida a coluna de faixa etária (P2a)
P3 Renda Foi mantida a coluna de faixa de renda (ID3a)
Serviço em nome de pessoa

P5 Sem relação com a variável de saída.
física ou jurídica
Serviço de internet por fibra
P7 Sem relação com a variável de saída
ótica
PU (0 e 7) Padrões de uso do serviço Menos de 50% de respondentes
Outras experiências do
E (todas) Menos de 50% de respondentes
consumidor
Autorização para operadora
A1 e Peso utilizar os dados e o peso Sem relação com a variável de saída
dado aos respondentes
Conforme estudou-se a base de dados, algumas perguntas do questionário entraram em uma

espécie de análise para verificar se faria sentido mantê-las no estudo ou não, verificando sua relação
com o atributo de saída e se o seu número de respondentes era menor que 50%, criando assim o critério
para a exclusão de alguns atributos de entrada. Após isso, a matriz de valores faltantes foi avaliada,
percebendo-se que muitas colunas não teriam relevância para a implantação dos modelos de AM, pois
haveria poucos dados para se analisar deteriorando assim os algoritmos. Foram retiradas as colunas da
Tabela 5 e excluídas qualquer linha que tivesse ao menos um dado faltante. Dessa maneira, a base de
dados final possui todas as linhas e colunas com dados, sem valores faltantes, totalizando 9.220 linhas.
Vale ressaltar que o atributo “ESTADO” foi removido e substituído por um atributo referente à
região do país (Norte, Nordeste, Centro-oeste, Sul e Sudeste). Após isso, as colunas “ESTADO” e
“MARCA” foram binarizadas, resultando em 28 colunas. A variável de saída considerada no modelo
foi a “SG3”, a qual avalia a satisfação geral do cliente com o serviço de telefonia móvel usando a escala
do NPS.
Neste trabalho, foram definidos dois modelos de avaliação para verificar os resultados obtidos,
conforme mostra a Tabela 6.
Tabela 6 – Modelos de aplicação de AM aos dados da ANATEL.
Modelo Separação das instâncias Avaliação da nota do NPS
Clientes que atribuíram nota 8 a 10 são considerados

1 Satisfeitos e insatisfeitos satisfeitos. Os demais clientes (nota 7 ou inferior) são
considerados insatisfeitos.
Os clientes são classificados conforme a escala NPS.
Promotores, neutros e
2 Clientes promotores (notas 9 e 10), neutros (notas 7 e 8) e
detratores
detratores (nota 6 ou inferior).
O primeiro modelo classifica os respondentes em satisfeitos ou insatisfeitos, usando a nota 8 ou

superior para delimitar clientes satisfeitos. O segundo modelo implementa a métrica do NPS,
considerando clientes que atribuíram nota 9 ou 10 como satisfeitos e clientes que informaram notas 1 a
6 como insatisfeitos. No Modelo 2, os clientes neutros (notas 7 e 8) foram removidos da fase de
treinamento para que o modelo pudesse aprender as características apenas dos clientes satisfeitos e
insatisfeitos. Posteriormente, os clientes neutros foram apresentados aos classificadores do Modelo 2
para buscar compreender se esses clientes neutros têm mais características de clientes satisfeitos ou
insatisfeitos.
Para a preparação geral do conjunto de dados e classificação, tanto para o Modelo 1 como para
o Modelo 2, foram executadas as mesmas etapas. Primeiramente, o conjunto original foi dividido em
treino (75%) e teste (25%). Após esta separação, foi feita a transformação dos atributos categóricos em
binários, ou seja, cada categoria daquela variável se tornou um novo atributo, recebendo o valor 1 em
caso verdadeiro, e 0 caso contrário.
Na sequência, os atributos restantes foram normalizados pelo método MinMax, que transforma
os valores de uma variável no intervalo [0,1], o que é importante principalmente para o caso do KNN,
pois a técnica é baseada em distância e isso pode levar a pesos indesejáveis para algumas variáveis em
relação às outras. É importante ressaltar que os parâmetros de valores máximos e mínimos deste método
foram obtidos do conjunto de treinamento, para posterior replicação ao conjunto de teste.
Após a finalização da preparação dos conjuntos, fez-se um estudo prévio sobre os
classificadores, analisando os seus desempenhos no conjunto de treino e conjunto de teste por meio da
métrica de precisão. Esta etapa é importante para identificar possíveis situações de underfitting (alto
viés), ou overfitting (alta variância). Para o primeiro caso, o modelo seria incapaz de entender os padrões
do próprio conjunto de treinamento, enquanto para o segundo, o modelo compreenderia os padrões das
instâncias de treinamento de forma ajustada, mas não conseguiria reproduzir ou generalizar a
classificação para instâncias desconhecidas (teste) (RASCHKA, 2015).
Para a investigação dos hiperparâmetros, o conjunto de treinamento foi dividido em 5-fold para
validação cruzada, encontrando os melhores parâmetros das técnicas analisadas. Assim, a partir deles
os métodos foram treinados com o conjunto de treinamento completo, verificando-se a eficiência dos
algoritmos para o conjunto de teste.
Quanto às ferramentas para este trabalho, foi utilizada a linguagem de programação Python 3, e
as etapas de manipulação, transformação, visualização e predição de dados foram realizadas a partir dos
módulos pandas (manipulação de Dataframes), matplotlib, seaborn e missingno (visualização de dados)
e scikit-learn (pré-processamento e algoritmos de classificação).
Para a avaliação dos algoritmos de AM, foram comparados alguns indicadores a fim de definir
quais são melhores para cada caso. Na Tabela 7 está descrito quais indicadores serão utilizados.
Tabela 7 – Métricas de classificação utilizadas.
Indicadores Definição
Recall Quantas situações de classe positiva estão corretas, dentre todas as instâncias
Acurácia Quantas classificações foram corretas, dentre todas as instâncias
Precisão Quantas situações estão corretas, dentre todas as instâncias positivas
F1 - Score Média harmônica entre precisão e recall
Representa a área do ROC, avaliando quantas classificações foram corretas contra quantas
AUC - Score
classificações foram incorretas
5.1. Resultados Do Modelo 1
Inicialmente foi utilizada a coluna “SG3” como variável de saída, sendo a mesma estratificada
em dois conjuntos (i) satisfeitos e (ii) insatisfeitos, conforme visto na Tabela 6. O conjunto foi separado
em outros dois, teste (25% da base) e treino (75% da base).
Para o treinamento, os algoritmos de AM utilizados foram os descritos na Seção 2 deste artigo,
com uma validação k-fold com k igual a 10 subconjuntos, e os resultados para o treinamento foram
dispostos conforme a Tabela 8.
Tabela 8 – Técnicas Aplicadas Ao Modelo 1 no Conjunto de Treino.
Indicadores LR KNN DT NB SVM RF MLP
Precisão (satisfeitos) 0,7772 0,7662 0,7674 0,7668 0,7844 0,8269 0,7738
Desvio Padrão Médio 0,0277 0,0155 0,0782 0,0276 0,0254 0,0580 0,0318
Com o treino realizado na base de dados, implementou-se os mesmos modelos de AM para o

conjunto de teste, obtendo os resultados com as métricas de Precisão, Recall, F1-Score e Acurácia
apresentados na Tabela 9.
Tabela 9 – Técnicas Aplicadas ao Modelo 1 no Conjunto de Teste.
Precisão Recall F1-Score

Técnicas
Insatisfeito Satisfeito Insatisfeito Satisfeito Insatisfeito Satisfeito
LR 0,75 0,77 0,66 0,84 0,70 0,81
KNN 0,72 0,78 0,68 0,81 0,70 0,79
DT 0,64 0,75 0,67 0,73 0,65 0,74
NB 0,74 0,77 0,58 0,87 0,65 0,82
SVM 0,77 0,78 0,65 0,86 0,71 0,81
RF 0,74 0,79 0,70 0,83 0,72 0,81
MLP 0,73 0,79 0,70 0,81 0,71 0,80
Para melhorar o desempenho das técnicas, foram avaliados os hiperparâmetros dos métodos
utilizando o GridSearchCV, com CV igual a 5, sendo testados os parâmetros listados na Tabela 10.
Tabela 10 – Definição dos Hiper Parâmetros do Modelo 1.
Técnicas Parâmetros Testados AUC Precisão
penalty: l2; none,

LR tol: 1e-6; 1e-2, 0,855 0,772
fit_intercept: True; False,
max_iter: 10000.
n_neighbors: 1; 2; 4; 6; 7; 10,
KNN 0,836 0,788
weights: uniform; distance.
splitter: best; random,
criterion: gini; entropy,
DT max_depth: 6; 12; 16; 24, 0,843 0,789
min_samples_leaf: 2; 4,
min_samples_split: 2; 4.
C: 0.1; 1; 10; 100; 1000,
gamma: 1; 0.1; 0.01; 0.001,
SVM 0,847 0,778
kernel: rbf; poly; sigmoid,
probability: True.
n_estimators: 200, 400,
max_depth: 6; 12; 24,
RF min_samples_split: 2; 4, 0,859 0,790
criterion : gini; entropy.
hidden_layer_sizes:
(10,30,10);(20,),
activation: tanh; relu,
MLP solver: sgd; adam, 0,853 0,823
alpha: 0.0001; 0.05,
learning_rate: constant;
adaptive
Os resultados mostram que os algoritmos tiveram uma melhora tanto em recall quanto a precisão
indicando que os parâmetros escolhidos foram suficientes para suprir os modelos aumentando a chance
de a classificação ser correta, baseada nos conjuntos de satisfeitos e insatisfeitos.
Os métodos Logistic Regression e Support Vector Machine foram melhores em precisão, quando
trata-se do AUC, junta-se a esses dois algoritmos o Random Forest e, quando se trata de classificação,
a métrica AUC é muito importante pois identifica a qualidade das previsões do modelo,
independentemente do limiar de classificação. Para uma melhor visualização foi utilizado um gráfico
comparando os resultados, vide Figura 7.
Figura 7 – Comparação Dos Algoritmos Aplicados Na Base De Teste Do Modelo 1.
Sabe-se que cada vez que um algoritmo é executado, os resultados são dispostos de maneiras
diferentes, pois o conjunto de teste varia a cada análise. Para se chegar a um desempenho mais assertivo
do classificador, foi utilizado uma validação cruzada com o k-fold de parâmetro k igual a 5. Esta
estratégia foi feita para cada tipo de técnica, chegando ao final com um número médio de Acurácia,
conforme visto na Tabela 11.
Tabela 11 – Resultados da Validação Cruzada no Modelo 1.
Indicadores LR KNN DT SVM RF MLP
Acurácia 0,7644 0,7674 0,7626 0,7718 0,7722 0,7718
Pode-se notar que a incorporação dos respondentes neutros dificulta a classificação em

promotores ou detratores e as dificuldades do algoritmo em classificar as instâncias de acordo com seus
atributos de entrada aumentam, isso se dá pelo fato de que o NPS julga notas 7 e 8 como neutros
exatamente porque esse conjunto tem uma similaridade, eles não são nem satisfeitos e nem insatisfeitos
e a classificação se torna deficitária logicamente. Para se ter uma melhor visualização, a Tabela 12
mostra o resultado desse modelo.
Tabela 12 – Indicadores de Desempenho Após Definição dos Parâmetros no Conjunto de Teste.

Técnicas
LR 0,75 0,77 0,65 0,84 0,70 0,81
KNN 0,74 0,79 0,69 0,82 0,71 0,80
DT 0,72 0,79 0,70 0,81 0,71 0,80
NB 0,74 0,77 0,58 0,87 0,65 0,82
SVM 0,76 0,78 0,66 0,85 0,71 0,81
RF 0,75 0,79 0,69 0,83 0,72 0,81
MLP 0,78 0,76 0,63 0,87 0,69 0,81
Com os hiper parâmetros, os algoritmos de KNN e Decision Tree obtiveram melhoras em todos
os indicadores e o MLP apresentou melhora significativa no Recall para satisfeitos, passando de 0,81
para 0,87, porém os outros algoritmos não apresentaram melhorias significativas mesmo com os
parâmetros ajustados.
5.2. Resultados Do Modelo 2
Inicialmente foi utilizada a coluna “SG3” para separar os conjuntos (i) promotores, (ii) neutros
e (iii) detratores. A regra utilizada foi que notas 10 e 9 entrariam como promotores, neutros teriam notas
8 e 7 e detratores notas menores ou iguais a 6. O agrupamento pode ser visto na Tabela 13.
Tabela 13 – Quantidade De Detratores, Promotores e Neutros.
Classificação de acordo com NPS Quantidade
Promotores 3.564
Neutros 2.887
Detratores 2.769
Esse modelo, têm duas avaliações, uma de promotores e detratores para entender os atributos
responsáveis na satisfação dos clientes e uma avaliação dos neutros verificando se são satisfeitos ou
insatisfeitos.
5.2.1. Promotores e Detratores
Após análise das classes, foi composto um conjunto de dados separando apenas promotores e
detratores. Com os conjuntos definidos em (25%) teste e (75%) treino, os resultados dos modelos foram
de acordo com a Tabela 14 e 15.
Tabela 14 – Técnicas Aplicadas ao Modelo 2 no Conjunto de Treino.
Indicadores LR KNN DT NB SVM RF MLP
Precisão (satisfeitos) 0,8732 0,8696 0,8003 0,8534 0,8793 0,8757 0,8622
Desvio Padrão Médio 0,0101 0,0165 0,0191 0,0110 0,0113 0,0108 0,0141
Com o treino realizado na base de dados, implementou-se os mesmos modelos de AM para o

conjunto de teste, obtendo os seguintes resultados com as métricas de Precisão, Recall, F1-Score e
Acurácia vide Tabela 15.
Tabela 15 – Técnicas Aplicadas ao Modelo 2 no Conjunto de Teste.

Técnicas
LR 0,88 0,90 0,86 0,91 0,87 0,90
KNN 0,85 0,89 0,85 0,89 0,85 0,89
DT 0,78 0,84 0,78 0,84 0,78 0,84
NB 0,86 0,88 0,83 0,90 0,84 0,89
SVM 0,87 0,90 0,87 0,90 0,87 0,90
RF 0,86 0,90 0,87 0,90 0,86 0,90

MLP 0,88 0,87 0,81 0,92 0,85 0,89
Para melhorar o desempenho das técnicas, foram avaliados os hiper parâmetros dos métodos
utilizando o GridSearchCV, com CV igual a 5, sendo eles representados na Tabela 16.
Tabela 16 – Definição dos Hiper Parâmetros do Modelo 2.
Técnicas Parâmetros Testados AUC Precisão
penalty: l2; none, tol: 1e-6;

1e-2,
LR fit_intercept: True; False, 0,887 0,880
max_iter: 10000.
n_neighbors: 1; 2; 4; 6; 7; 10,
KNN 0,970 0,975
weights: uniform; distance.
splitter: best; random,
criterion : gini; entropy,
DT max_depth: 6; 12; 16; 24, 0,874 0,878
min_samples_split: 2; 4.
C: 0.1; 1; 10; 100; 1000,
gamma: 1; 0.1; 0.01; 0.001,
SVM 0,877 0,896
kernel: rbf; poly; sigmoid,
probability: True.
n_estimators: 200, 400,
max_depth: 6; 12; 24,
RF min_samples_split: 2; 4, 0,910 0,931
criterion : gini; entropy.
hidden_layer_sizes:
(10,30,10);(20,),
activation: tanh; relu,
MLP solver: sgd; adam, 0,892 0,887
alpha: 0.0001; 0.05,
learning_rate: constant;
adaptive
Os resultados mostram que os algoritmos tiveram uma melhora tanto em Recall quanto em
Precisão indicando que os parâmetros escolhidos foram suficientes para suprir os modelos aumentando
a chance de a classificação ser correta baseada nos conjuntos de detratores e promotores.
O algoritmo de Random Forest e KNN se mostraram melhores em Precisão.. Quando se trata
do Recall os melhores algoritmos são o Random Forest, KNN e o MLP. O Recall é muito importante
quando se trata de classificação, pois é utilizado para indicar a relação entre as previsões positivas
realizadas corretamente e todas as previsões que realmente são positivas. Para uma melhor visualização
foi plotado um gráfico comparando os resultados, ver Figura 8.
Figura 8 – Comparação Dos Algoritmos Aplicados Na Base De Teste Do Modelo 2.
Utilizando o k-fold igual a 5, obtém-se um número médio de Acurácia dos algoritmos de AM,
visto na Tabela 17.
Tabela 17 – Resultados Da Validação Cruzada No Modelo 2.
Indicadores LR KNN DT SVM RF MLP
Acurácia 0.864 0.869 0.850 0.872 0.871 0.855
Após a validação cruzada os números médios de Acurácia foram diferentes, isso se dá pelo fato
de que o algoritmo utilizado pode criar um viés no conjunto de teste selecionado e quando recebe outros
conjuntos para classificar, acaba por diminuir a taxa de acerto. Com a validação cruzada os conjuntos
de teste e treino são compostos por dados diferentes que variam de acordo com o parâmetro inserido no
método de validação, nesse caso o k-fold com parâmetro k igual a 5, o que obriga os algoritmos a
classificarem 5 conjuntos de teste diferentes gerando valores distintos e calculando uma média conforme
a Tabela 17.
Com a base de dados separada em dois conjuntos de detratores e promotores e retirando os
neutros, é perceptível a melhora das predições, com valores de métricas melhores e um nível de Precisão
e Acurácia maiores.
Como complemento aos resultados dos classificadores, o Random Forest é um modelo que tem
em média bons resultados quando aplicados à base de dados, e oferece um método em que se pode
entender quais foram os atributos mais importantes para a classificação em satisfeito e insatisfeito. A
Figura 9 mostra quais foram esses atributos.
Figura 9 – Importância Dos Atributos.
Na Tabela 18 é descrito o que cada atributo traz em seu conteúdo para verificar quais são os
principais pontos na classificação da satisfação do modelo de AM.
Tabela 18 – Importância Dos Atributos.
Dimensões Conteúdo Valor
1 Qualidade no atendimento e transparência 0,41
2 Qualidade dos serviços contratados 0,38
3 Dados Demográficos 0,17
4 Padrão de uso 0,04
Com a análise dos atributos mais importantes é perceptível que a qualidade da informação
passada ao colaborador, velocidade na internet e sua área de cobertura são os aspectos mais importantes
para definir se um cliente está ou não satisfeito, o que implica em ajustar os processos de contratação
por parte das operadoras com o seu cliente.
5.2.2. Análise dos clientes neutros
Para a avaliação dos neutros, a mesma base de dados foi disposta em apenas um conjunto, para
isso utilizou-se da coluna “SG3” e agrupou apenas os respondentes que deram notas 7 ou 8 para essa
questão. Com isso, foram avaliadas 2.887 instâncias.
Utilizando os classificadores, treinados e parametrizados, esses respondentes considerados
“neutros” a priori foram classificados em satisfeitos (classificação igual a 1) ou insatisfeitos
(classificação igual a 0). A Figura 10 mostra a classificação obtida.
Figura 10 – Avaliação Dos Neutros Com Todos Os Classificadores.
Após a avaliação da Figura 10, percebeu-se que no conjunto de neutros houve mais insatisfeitos
do que satisfeitos, porém esse conjunto é estratificado em duas notas e levantou-se a discussão de que
as percepções por cada uma poderiam ser diferentes. Para ilustrar esse pensamento foram utilizados
alguns gráficos, como exibidos na Figura 11.
Figura 11 – Avaliação Das Notas 7 e 8 Com Todos Os Classificadores.
Em média os clientes que atribuíram uma nota 8 para a questão “SG3”, tendem a ser mais
satisfeitos do que insatisfeitos, todavia os que atribuíram nota 7 são bem divididos entre satisfeitos e
insatisfeitos. É possível concluir que a nota 8 é uma faixa com proporção maior de satisfeitos não sendo
tão “neutros”, já na nota 7 observa-se uma faixa cinzenta não podendo afirmar se tendem mais a
satisfeitos ou insatisfeitos.
As importâncias dos atributos de entrada para o classificador no Modelo 2 sugerem a qualidade
da informação passada aos seus clientes, a velocidade e estabilidade da internet são fatores preferenciais
para que operadoras os satisfaçam com seus serviços, além de estabilidade em chamadas de voz com
cobertura de sinal boa.
Comparando os Modelos 1 e 2 é possível perceber que os classificadores atuam de forma mais
assertiva no Modelo 2. Isso era esperado já que a não incorporação dos neutros na classificação deixa
os promotores e detratores menos poluídos e com uma lógica melhor ao algoritmo para que encontre
um padrão nas respostas dos clientes.
6. Discussões dos Resultados
Os resultados desta pesquisa mostraram que é possível construir um modelo preditivo com o
intuito de se classificar a satisfação sobre usuários com serviços de telefonia móvel. Mesmo com a escala
NPS sendo uma das principais escolhas para a avaliação da experiência do consumidor (Batouei et al.
(2020), ela é subjetiva e tem uma abordagem teórica não tão explorada como outros tipos de escalas, o
que poderia dificultar um algoritmo a encontrar padrões relevantes em dados. Porém, Tong et al. (2017)
utilizaram esta escala em sua pesquisa na área de telecomunicações para predizer as três classes do NPS,
alcançando 71,24% de acurácia no conjunto de teste. Na presente pesquisa, a classe neutra foi tratada
de forma isolada e obteve-se uma maior acurácia para os modelos 1 e 2, conforme resultados reportados
na Seção 5.
Neste contexto, como mostrado no modelo 2, as predições realizadas para o caso dos neutros
revelam que aqueles com nota “7” realmente estão em uma zona de maior indecisão, porém a nota “8”
mostra que há uma maior tendência para a classe satisfeito, o que pode prejudicar modelos do tipo
multiclasse, ou seja, que consideram ao mesmo tempo as três classes “satisfeitos”, “insatisfeitos” e
“neutros”. Assim, mesmo em outras áreas de aplicação ou para outras escalas de satisfação, torna-se
interessante a estratégia de se trabalhar com apenas duas classes. Por exemplo, em uma pesquisa com
empresas de linhas aéreas fez-se uma classe com os “neutros ou insatisfeitos”, e outra com os
“satisfeitos”, obtendo-se acurácias entre 82% e 96% (Noviantoro e Huang, 2022). Já na área de avaliação
do espaço de trabalho, alcançou-se um auc-score de aproximadamente 90% quando as classes era só de
satisfeitos e insatisfeitos (Kent et al., 2021).
Normile (2008) cita que a rentabilidade em empresas de telecomunicação está baseada no
número de consumidores ativos, tempo de duração das chamadas, preço, habilidade de satisfazer aos
consumidores, bem como a qualidade do serviço. Este último fator corrobora o que foi considerado
importante para a presente pesquisa, pois a velocidade e cobertura da internet, e transparência nas
informações junto ao consumidor, se mostraram importantes para o modelo preditivo.
Ainda analisando as variáveis mais relevantes do modelo, o estudo de Shahzad et al. (2021)
mostra que, para as empresas de telecomunicações, o fator preço é um dos principais para que uma
pessoa possa mudar de operadora, enquanto o fator sobre a qualidade do serviço é crucial na retenção
de clientes e lealdade, também indo de encontro ao que foi encontrado neste trabalho. Por fim, Belwal
e Amireh (2018) também concluíram que as empresas de telecomunicações devem posicionar o foco da
qualidade do serviço em confiabilidade e garantias, assegurando a lealdade e rentabilidade no longo
prazo.
7. Conclusões
Neste trabalho foram implementados modelos de AM para solucionar problemas de

classificação em um questionário de satisfação aplicado pela ANATEL utilizando 3 modelos referentes
aos atributos de saída da coluna SG3, que mede a satisfação geral dos clientes das operadoras.
A classificação dos respondentes desse questionário usando técnicas de AM teve também como
finalidade determinar quais são os atributos mais importantes na satisfação em serviços de
telecomunicação móvel e após, analisar se os neutros são mais insatisfeitos e satisfeitos.
Os experimentos mostraram que os algoritmos de aprendizagem de máquina Random Forest,
Support Vector Machines, Redes Neurais e Regressão Logística tiveram resultados bons sendo
implementados nessa base de dados e que poderiam classificar respondentes com uma acurácia de 86%
em média.
Com relação aos clientes neutros, foi perceptível que há mais insatisfeitos do que satisfeitos,
porém com uma distância pequena entre as classes. Isso indica que a classe neutra do NPS realmente é
uma faixa de transição entre satisfeitos e insatisfeitos, porém os resultados obtidos mostraram que a
proporção de clientes insatisfeitos foi superior por uma margem de 10 a 15 pontos percentuais
dependendo do algoritmo.
Com a avaliação dos atributos mais importantes o trabalho mostrou que dentre elas a qualidade
da interação que é o atendimento ao público é a mais importante pois os atributos com maior valor na
pesquisa foram da seção de qualidade da informação ao consumidor (QIC), seguidas pela qualidade do
funcionamento (QF) que é a qualidade dos resultados. Portanto, a pesquisa deixa claro que esses
aspectos das dimensões da qualidade em serviço estão muito atrelados à satisfação mesmo que
indiretamente.
Utilizando o NPS foi possível identificar atributos coerentes com as dimensões da qualidade,
porém pode ser que utilizando outro tipo de questionário a precisão dos algoritmos melhore e também
mostre outros atributos mais importantes para a satisfação geral do consumidor.
Os resultados deste trabalho indicam que os esforços para aumento da qualidade devem focar
nas informações passadas aos consumidores com ênfase na internet, garantir a estabilidade e velocidade
além de ter uma cobertura maior para que a mudança de local não seja um definidor na hora de escolher
uma operadora.
Pesquisas futuras devem continuar acompanhando os resultados anuais publicados pela
ANATEL para avaliar mudanças nas tendências em relação aos fatores mais relevantes para a satisfação
no setor de telefonia móvel. Além disso, o método proposto neste artigo envolvendo AM e NPS pode
ser replicado em outros segmentos de serviços em que há coleta de dados de satisfação por meio da
escala NPS.
Referências.
ANATEL. Manual de Aplicação da Pesquisa para Aferição do Grau de Satisfação e da

Qualidade Percebida Junto aos Usuários de Serviços de Telecomunicações. Site Governo Federal,
2018. Disponível em: https://sistemas.anatel.gov.br/anexar-
api/publico/anexos/download/3236b890e56e212bc319e6d1e2076655. Acesso em: 21 fev. 2023.
ANATEL. Anatel publica resultados da Pesquisa de Satisfação e Qualidade Percebida 2022.
Disponível em: < https://www.gov.br/anatel/pt-br/assuntos/noticias/anatel-publica-resultados-da-
pesquisa-de-satisfacao-e-qualidade-percebida-2022>. Acesso em: 10/04/2023.
ANATEL. Relatórios de acompanhamento 2022. Disponível em: < https://www.gov.br/anatel/pt-
br/dados/relatorios-de-acompanhamento/2022>. Acesso em 10/04/2023.
BALACHANDRAN, A.; SEKAR, V.; AKELLA, A.; et al. Developing a predictive model of quality
of experience for internet video. In: Proceedings of the ACM SIGCOMM 2013 conference on
SIGCOMM. 2013. Nova York. Anais[…] Nova York: Association for Computing Machinery, 2013.
p. 339-350. Disponível em: <https://dl.acm.org/doi/10.1145/2486001.2486025>. Acesso em:
31/10/2022.
BATOUEI, A.; IRANMANESH, M.; MUSTAFA, H.; NIKBIN, D.; PING, T. A. Components of
airport experience and their roles in eliciting passengers’ satisfaction and behavioural intentions.
Research in Transportation Business & Management, v. 37, p. 100585, dez. 2020.
BELWAL, R.; AMIREH, M. Service quality and attitudinal loyalty: Consumers’ perception of two
major telecommunication companies in Oman. Arab Economic and Business Journal, v. 13, n. 2, p.
197–208, dez. 2018.
BOAKYE, K. G.; PRYBUTOK, V. R.; RYAN, S. D. The intention of continued web-enabled phone
service usage: A quality perspective. Operations Management Research, v. 5, n. (1–2), p. 14–24,
2012.
BRAMER, M. Principles of Data Mining. 3ª ed. London: Springer London, 2016.
BREIMAN, L. Random Forests. Machine Learning, v. 45, p. 5-32, 2001.
BURHANUDDIN, M. A.; ISMAIL, R.; IZZAIMAH, N.; MOHAMMED, A. A.-J.; ZAINOL, N.
Analysis of mobile service providers performance using naïve bayes data mining technique.
International Journal of Electrical and Computer Engineering, v. 8, n. 6, p. 5153–5161, 2018.
CARVALHO, A. C. P. L. F.; ALMEIDA, T. A.; GAMA, J.; LORENA, A. C.; FACELI, K.
Inteligência Artificial: Uma abordagem de Aprendizado de Máquina. 1. ed. Rio de Janeiro: Ltc,
2011.
COX, T.; BELL, G. A machine learning approach to process improvement in a telecommunications
company. Annals of Operations Research, v. 65, p. 21–34, 1996.
CRONIN, J.; BRADY, M. K.; HULT, T. M. Assessing the effects of quality, value, and customer
satisfaction on consumer behavioral intentions in in service environments. Journal of Retailing, v.
76, p. 193-218, 2000.
DJATNA, T.; KUSUMA, W. A. Twitter’s Sentiment Analysis on Gsm Services using Multinomial
Naïve Bayes. Telkomnika (Telecommunication, Computing, Electronics and Control), v. 15, p.
1354-1361, 2017.
ERTEL, W. Introduction to Artificial Intelligence. 2. ed. London: Springer, 2017.
FAYYAD, U. M.; PIATETSKY-SHAPIRO, G.; SMYTH, P. Advances in Knowledge Discovery &
Data Mining. California: American Association for Artificial Intelligence, 1996.
GÉRON, A. Hands-on: Machine Learning with Scikit-Learn, Keras & Tensorflow. 2a ed.
Sebastopol: O’Reilly Media, 2019.
GUO, G.; WANG, H.; BELL, D.; BI, Y.; GREER, K. KNN Model-Based Approach in Classification.
Lecture Notes in Computer Science, v. 2888, p. 986-996, 2003.
MISHRA, C.; GUPTA, D. L. Deep Machine Learning and Neural Networks: An Overview.
International Journal of Artificial Intelligence, v. 6, n. 2, p. 66-73, junho, 2017.
HARRIS, A.; COOPER, M. Mobile phones: Impacts, challenges, and predictions. Human Behavior
and Emerging Technologies, v. 1, n. 1, 2019.
HASTIE, T.; TIBSHIRANI, R.; FRIEDMAN, J. The Elements of Statistical Learning.
SpringerLink, 2009. Springer New York.
HOFFMAN, K. D.; BATESON, J. E. G. Princípios de Marketing de Serviços. São Paulo: Pioneira
Thomson Learning, 2003.
KENT, M.; PARKINSON, T.; KIM, J.; SCHIAVON, S. A data-driven analysis of occupant
workspace dissatisfaction. Building and Environment, v. 205, p. 108270, nov. 2021.
KONAR, A. Artificial Intelligence and Soft Computing Behavioral and Cognitive, Modeling of
the Human Brain. Boca Raton, Florida: CRC Press LLC, p. 788, 1999.
KUMAR, A.; LIM, H. Age differences in mobile service perceptions: Comparison of Generation Y
and baby boomers. Journal of Services Marketing, v. 22, p. 568-577, 2008.
LACOCHÉE, H.; WAKEFORD, N.; PEARSON, I. A social history of the mobile telephone with a
view of its future. BT Technology Journal, v. 21, n. 3, 2003.
LI, W. W.; SPACHOS, P.; CHIGNELL, M.; LEON-GARCIA, A.; ZUCHERMAN, L.; JIANG, J. A
quantitative relationship between Application Performance Metrics and Quality of Experience for
Over-The-Top video. Computer Networks. v. 142, p. 194–207, 2018.
MARKOULIDAKIS, I.; RALLIS, I.; GEORGOULAS, I.; KOPSIAFTIS, G.; DOULAMIS, A.;
DOULAMIS, N. A Machine Learning Based Classification Method for Customer Experience Survey
Analysis. Technologies, v. 8, n. 4, p. 76, 7 Dec. 2020.
MORO, S. Guest satisfaction in East and West: evidence from online reviews of the influence of
cultural origin in two major gambling cities, Las Vegas and Macau. Tourism Recreation Research,
v. 45, n. 4, p. 539–548, 2020.
NASCIMENTO, C. A. N. Avaliação da capacidade do serviço de atendimento de companhias de
telefonia móvel no estado do Paraná por meio da qualidade percebida. Trabalho de conclusão de
curso. Universidade Tecnológica Federal Do Paraná Departamento Acadêmico De Engenharia De
Produção, Ponta Grossa, 2017.
NORMILE, S. Business Intelligence for Telecommunication Industry. INGRES Whitepaper, 2008.
NOVIANTORO, T.; HUANG, J.-P. Investigating airline passenger satisfaction: Data mining method.
Research in Transportation Business & Management, v. 43, p. 100726, jun. 2022.
PENG, K.F.; CHEN, Y.; WEN, K.W. Brand relationship, consumption values and branded app
adoption. Industry Management Data Systems, v. 114, n. 8, p. 1131-1143, 2014.
RASCHKA, S. Python Machine Learning. 1ª ed. Birmingham (UK): Packt Publishing. 2015.
SACCOL, A. Z.; REINHARD, N. Tecnologias de informação móveis, sem fio e ubíquas: definições,
estado-da-arte e oportunidades de pesquisa. Revista de Administração Contemporânea, v. 11, n. 4,
p. 175-198, 2007.
SHAHZAD, A.; YAQUB, R. M. S.; DI VAIO, A.; HASSAN, R. Antecedents of customer loyalty and
performance improvement: Evidence from Pakistan’s telecommunications sector. Utilities Policy, v.
70, p. 101208, jun. 2021.
SHALEV-SHWARTZ, S.; BEN-DAVID, S. Understanding machine learning. From theory to
algorithms, Waterloo: Cambridge University Press, 2014.
SILVA; W. C. P.; PEDROSA, G. V.; GOMES, M. M. F. Proposta de modelo de avaliação da
satisfação de usuários de serviços públicos. Brasília: Universidade de Brasília, Faculdade Gama,
2020.
SIROOSI, H.; HESHMATI, G.; SALMANMAHINY, A. Can empirically based model results be fed
into mathematical models? MCE for neural network and logistic regression in tourism landscape
planning. Environment, Development and Sustainability, v. 22, p. 3701-3722, 2020.
SOLIMAN, M.; FATNASSI, T.; ELGAMMAL, I.; FIGUEIREDO, R. Exploring the Major Trends
and Emerging Themes of Artificial Intelligence in the Scientific Leading Journals amidst the COVID-
19 Era. Big Data and Cognitive Computing, v. 7, n. 12, 2023.
SUGUMARAN, V.; SABAREESH, G.R.; RAMACHANDRAN, K.I. Fault diagnostics of roller
bearing using kernel based neighborhood score multi-class support vector machine. Expert Systems
with Applications, v. 34, n. 4, pp. 3090-3098, 2008.
TONG, L.; WANG, Y.; WEN, F.; LI, X. The research of customer loyalty improvement in telecom
industry based on NPS data mining. IEEE China Communications, v. 14, n. 11, p. 260–268, nov.
2017.
TYAGI, S. Using data analytics for greater profits. Journal of Business Strategy, v. 24, p. 12-14,
2003.

Seminario Machine Learning

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Seminario Machine Learning

Enviado por

Direitos autorais:

Formatos disponíveis

PRODUTO & PRODUÇÃO, vol. 24, n.2, p. 83-109. 2023*.

Aplicação de técnicas de aprendizado de máquina para classificar a

satisfação de clientes de serviços de telefonia celular

Luiz Gonzaga Lacerda de Athayde Neto

Rafael Henrique Palma Lima

Bruno Samways dos Santos

Matheus Raphael Elero

Palavras-chave: Aprendizado de máquina; Qualidade em serviços; NPS; Satisfação; Telefonia móvel.

Keywords: Machine learning; Service quality; NPS; Satisfaction; Mobile telecommunication.

2. Aprendizado de Máquina e Técnicas de Classificação

3. Satisfação em Telefonia Móvel

Fonte: Adaptado de ANATEL (2022)

Figura 1 – Cumprimento Das Metas 2021.

A Figura 3, apresenta a quantidade de respondentes por estado. De acordo, com o manual da

Figura 3 – Respondentes Por Estado.

4.1. Composição Geral Dos Dados

As 78 colunas de perguntas são preenchidas de acordo com a Tabela 2, baseada no manual de

Tipo Descrição dos parâmetros

Campo de livre preenchimento com perguntas pessoais, como quantidade de pessoas na

Figura 4 – Satisfação Média Dos Serviços Pré-pagos e Pós-pagos.

Figura 6 – Satisfação Por Operadora De Serviços Pré-Pago.

4.2. Estrutura do Questionário

O questionário da pesquisa é dividido em várias seções, sendo algumas questões obrigatórias,

Seção Descrição dos parâmetros

Identificação, tipo, operadora, estado, data, ano, área de trabalho, tipo do

Satisfação geral do consumidor Nível de satisfação do cliente em formato de NPS.

Qualidade da informação ao Nível de satisfação com o funcionamento do serviço e cobrança em escala

Tabela 4 – Porcentagem de valores preenchidos por coluna.

Tabela 5 – Atributos Retirados Da Base De Dados.

SG (1,2,3) Satisfação Geral Colunas utilizadas como variável de saída

QA (todas) Qualidade no atendimento Menos de 50% de respondentes

QCR (1, 1.1, 1.2, Qualidade na cobrança ou

P3 Renda Foi mantida a coluna de faixa de renda (ID3a)

Serviço em nome de pessoa

PU (0 e 7) Padrões de uso do serviço Menos de 50% de respondentes

Conforme estudou-se a base de dados, algumas perguntas do questionário entraram em uma

Tabela 6 – Modelos de aplicação de AM aos dados da ANATEL.

Modelo Separação das instâncias Avaliação da nota do NPS

Clientes que atribuíram nota 8 a 10 são considerados

O primeiro modelo classifica os respondentes em satisfeitos ou insatisfeitos, usando a nota 8 ou

Tabela 7 – Métricas de classificação utilizadas.

Acurácia Quantas classificações foram corretas, dentre todas as instâncias

Precisão Quantas situações estão corretas, dentre todas as instâncias positivas

F1 - Score Média harmônica entre precisão e recall

5.1. Resultados Do Modelo 1

Indicadores LR KNN DT NB SVM RF MLP

Precisão (satisfeitos) 0,7772 0,7662 0,7674 0,7668 0,7844 0,8269 0,7738

Com o treino realizado na base de dados, implementou-se os mesmos modelos de AM para o

Tabela 9 – Técnicas Aplicadas ao Modelo 1 no Conjunto de Teste.

Precisão Recall F1-Score

LR 0,75 0,77 0,66 0,84 0,70 0,81

KNN 0,72 0,78 0,68 0,81 0,70 0,79

DT 0,64 0,75 0,67 0,73 0,65 0,74

NB 0,74 0,77 0,58 0,87 0,65 0,82

SVM 0,77 0,78 0,65 0,86 0,71 0,81

RF 0,74 0,79 0,70 0,83 0,72 0,81

MLP 0,73 0,79 0,70 0,81 0,71 0,80

Tabela 10 – Definição dos Hiper Parâmetros do Modelo 1.

Técnicas Parâmetros Testados AUC Precisão

penalty: l2; none,

Figura 7 – Comparação Dos Algoritmos Aplicados Na Base De Teste Do Modelo 1.

Tabela 11 – Resultados da Validação Cruzada no Modelo 1.

Indicadores LR KNN DT SVM RF MLP

Acurácia 0,7644 0,7674 0,7626 0,7718 0,7722 0,7718