Você está na página 1de 25

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE MINAS GERAIS

NÚCLEO DE EDUCAÇÃO A DISTÂNCIA


Pós-graduação Lato Sensu em Analytics e Business Intelligence

PROJETO TCC
Análise de dados como instrumento de apoio para tomada de decisão
aplicada à empresa de Telecomunicações

Camila de Sá Leite

Brasília
2022
Sumário
1. Introdução ................................................................................................................................... 3
1.1. Contexto .............................................................................................................................. 3
1.2. Objetivos ............................................................................................................................. 3
1.3. Público-alvo ......................................................................................................................... 4
2. Modelo de Dados ........................................................................................................................ 5
2.1. Modelo Dimensional ........................................................................................................... 5
2.2. Fatos e Dimensões .............................................................................................................. 5
2.2.1 Fatos ................................................................................................................................ 6
2.2.2 Dimensões ....................................................................................................................... 6
3. Integração, Tratamento e Carga de Dados .................................................................................. 7
3.1. Fontes de Dados .................................................................................................................. 7
3.2. Processos de Integração e Carga (ETL) ................................................................................ 7
3.2.1 Ferramenta ...................................................................................................................... 8
3.2.2 Integração ....................................................................................................................... 8
3.2.1 Tratamento.................................................................................................................... 13
● master_churn ........................................................................................................................ 13
3.2.3 Carga.............................................................................................................................. 14
4. Links ........................................................................................................................................... 16
5. Apresentação Dashboard .......................................................................................................... 17
5.1. Dashboard ......................................................................................................................... 18
5.2. Tela inicial e estratégica .................................................................................................... 19
5.3. Tela de análise por referidos (indicações)......................................................................... 20
5.4. Tela de análise da receita financeira ................................................................................. 20
5.5. Tela de análise por contratos ............................................................................................ 21
REFERÊNCIAS ..................................................................................................................................... 24
1. Introdução

1.1. Contexto

Saímos da Revolução Industrial e entramos na Indústria 4.0 trazendo mais


modernidade, agilidade e eficiência ao mundo dos negócios. A Indústria 4.0 utiliza
dados para tomada de decisões, alguns dos termos englobados são: Big Data,
Internet das Coisas, Inteligência Artificial, Machine Learning, Cultura Data Driven
e muito mais.
Os dados hoje têm sido um dos principais ativos das empresas. A
preocupação com a gestão e estratégias para lidar com a quantidade enorme de
informações tem se tornado cada vez mais comum. A crescente massa de dados
que são trabalhados diariamente pelas empresas trazem consigo imensas
oportunidades de alavancar as decisões relacionadas ao negócio, podendo
oferecer vantagem competitiva, (TAURION, 2013).
Neste projeto, irei analisar uma empresa de telecomunicações que realizou
alguns estudos de engenharia de telecomunicações e especialização em redes,
e que ao longo do tempo alcançou vasto conhecimento e experiência na área de
serviços de telefonia móvel, redes e cabeamento estruturado.
A empresa Telcom é jovem no mercado, mas já possui várias filiais em
diversas cidades do estado da Califórnia, Estados Unidos, tornando-se valiosa e
com grande potencial de expansão.
Diante disso, tendo o interesse de ser uma empresa mais competitiva,
torna-se indispensável o desenvolvimento de análises estratégicas para ter-se
uma melhor orientação para tomada de decisão. Além do mais, é necessário ter
dados organizados e estratégias bem definidas para entender a situação do
negócio, prever crescimento, reduzir custos ou aumentar os investimentos.

1.2. Objetivos

O objetivo deste trabalho é investigar a taxa de churn de clientes em uma


empresa de telecomunicações e identificar os fatores que influenciam a decisão
de um cliente de deixar a empresa. Para alcançar este objetivo, serão utilizados
métodos de análise de dados, incluindo técnicas de mineração de dados, modelos
de aprendizado de máquina e técnicas de visualização de dados, para explorar
as características dos clientes, avaliar o impacto das diferentes variáveis e
identificar oportunidades para melhorar a retenção de clientes e reduzir a taxa de
churn. Almeja-se que todo o processo deste trabalho possa contribuir como bases
para impulsionar o uso de análise de dados e suas ferramentas por parte dos
colaboradores especialistas dentro de uma empresa.
Identificar se a empresa está falhando em algum processo, se precisa
melhorar as ofertas, se temos mais contratações ou finalizações de contratos dos
serviços oferecidos.

1.3. Público-alvo

Quando se pensa em apresentar dados, métricas ou indicadores, todas as


pessoas envolvidas no processo de evolução das informações devem ter acesso
a uma clara visualização dessas perspectivas. Seja uma equipe que precisa
melhorar a performance, um setor que está acima da média e poderia ser
reconhecido ou umgestor que precisa avaliar a expansão dos negócios.
Pensando nisso, por nível de gestão temos os seguintes nomes como alvo
deste estudo.

● Estratégico: diretores, executivos e pessoas que, juntos, direcionam o


negócio para o caminho que julgam mais seguro rumo ao crescimento.
● Tático: gestores, coordenadores ou pessoas em comunicação direta
com o nível de topo, responsáveis por transformar em realidade o que
foi planejadoe apoiar o operacional.
● Operacional: líderes, supervisores, chefes de divisão, pessoas que
estão diretamente ligadas às equipes que executam o planejado.
2. Modelo de Dados

2.1. Modelo Dimensional

Para este projeto optou-se pelo modelo estrela. O esquema estrela é uma
estrutura simples, com poucas tabelas e ligações (relacionamentos) bem
definidas (POE, KLAUER, BROBST, 1998). Este modelo foi escolhido, pois trouxe
uma melhor performance ao modelo e pela simplicidade de entendimento.

Figura 01 - Modelo Dimensional

Fonte: Criação própria usando o software DBDesigner.

2.2. Fatos e Dimensões

A seguir apresentarei as tabelas dimensões e a tabela fato.


2.2.1 Fatos

A tabela de fatos é a principal tabela de um modelo dimensional, onde as


medições numéricas de interesse da empresa estão armazenadas (KIMBALL,
2002). É na tabela fato que os dados de quantidade, valores, indicadores e
métricas do negócio são armazenadas.

Tabela 01 - Descrição Tabela Fato

Tabela Descrição

f_telecom Possui dados sobre todos os serviços de assinaturas e


cancelamentos.

Fonte: Elaboração Própria.

2.2.2 Dimensões

As tabelas dimensões possuem os contextos das ocorrências da tabela


fato. Ela é composta por atributos e contém a descrição do negócio.

Tabela 02 - Descrição Tabelas Dimensões

Tabelas Descrição

d_status Contém informações sobre a perda de clientes da empresa para o


próximo mês com base em vários fatores.

d_services Contém as características dos serviços contratados pelos clientes, os


pagamentos mensais feitos pelos clientes à empresa, a receita total,
os encargos adicionais atribuídos aos clientes por exceder o limite de
download estabelecido ou dados limites de consumo, entre outros.

d_location Contém informações de localização dos clientes para o estado da


Califórnia, tais como onde os serviços solicitados foram executados
e inclui coordenadas exatas (latitude e longitude).

D_population Contém os dados da população total de cada cidade do estado da


Califórnia onde o indicador de referência para cada cidade é a
variável CEP.
d_demographics Contém as características demográficas dos clientes que solicitaram
os serviços da empresa TELCO, grande parte dessas variáveis estão
relacionadas às informações pessoais do cliente, como o número de
dependentes que possui, se a pessoa é casada ou não, a idade, entre
outros.

Fonte: Elaboração Própria.

3. Integração, Tratamento e Carga de Dados

3.1. Fontes de Dados

Os dados utilizados como base para este projeto foram extraídos do site
https://www.kaggle.com. O Kaggle é uma plataforma onde os usuários podem
participar de competições relacionadas à Data Science, Machine Learning e
outras áreas. Na plataforma ficam disponíveis vários datasets sobre diversos
assuntos, existe fórum para discussões e troca de conhecimento.
Algumas informações foram anonimizadas devido a Lei Geral de Proteção de Dados
(LGPD).

Abaixo é possível identificar a listagem de arquivos no formato .csv que


foram baixados do Kaggle.

● Telecom.csv
● Telco_customer_churn_demographics.csv
● Telco_customer_churn_location.csv
● Telco_customer_churn_population.csv
● Telco_customer_churn_services.csv
● Telco_customer_churn_status.csv

3.2. Processos de Integração e Carga (ETL)

Reconhecida como uma das etapas mais críticas de um projeto de BI, o


Extract Transform and Load (ETL), tem como objetivo extrair os dados, realizar as
transformações necessárias e carregar os dados para um DW.

Figura 02 - Processo ETL

Fonte: Microsoft

3.2.1 Ferramenta

A ferramenta Google Cloud Plataform - BigQuery foi a escolhida para


realizar o processo ETL. O BigQuery é um data warehouse sem servidor
totalmente gerenciado que permite análises escalonáveis em petabytes de dados.
É uma Plataforma como Serviço (PaaS) que suporta consultas usando ANSI SQL.
Ele também possui recursos integrados de aprendizado de máquina.

3.2.2 Integração

Para iniciar o processo de integração, foi preciso fazer o download dos


arquivos .csv para o computador. Após o processo de download, foi realizado o
acesso à plataforma Google Cloud Platform para acessar o ambiente BigQuery.
Figura 03 – Início do Google Cloud Platform

Fonte: Google Cloud Platform

Ao clicar em BigQuery é aberta uma nova aba exibindo o ambiente do BigQuery:

Figura 04 – Espaço de trabalho BigQuery SQL

Fonte: BigQuery SQL

Após realizar o acesso ao BigQuery, é necessário criar um projeto para poder


subir todos os arquivos .csv:
Figura 05 – Localização da opção de criação do projeto

Fonte: BigQuery SQL

Após clicar em My First Project, abre-se uma nova janela para iniciarmos o
processo de configuração do ambiente BigQuery:

Figura 06: Janela de criação de um projeto novo

Fonte: BigQuery SQL

A nova janela (Figura 07) mostra as opções de Project Name (nesta seção
foi digitado o nome My Project TCC) e a opção de localização como “sem
organização”.

Figura 7 – Estrutura do conjunto de dados

Fonte: BigQuery SQL


Após o projeto criado, criou-se um dataset onde foram importados todos os
arquivos .csv da empresa TELCO:

Figura 08 – Criação do dataset para importação dos arquivos

Fonte: BigQuery

A nova janela (Figura 09) apresenta a janela para criar o dataset e importar os
arquivos .cvs que estão no computador para o BigQuery:

Figura 09 – Janela para criar o dataset

Fonte: BigQuery

Na figura 09, a primeira opção ID do projeto indica o local onde o dataset


ou conjunto de dados será criado, a segunda opção é o nome do dataset que foi
definido (para este desenvolvimento chamei Dataset_TELCO) as opções
restantes não foram alteradas. Após as etapas anteriores definidas, cliquei em
Criar conjunto de dados, e o dataset foi criado.

Com o dataset criado, iremos importar todos os arquivos um por vez,


conforme as imagens a seguir:

Figura 10 – Janela para criar as tabelas e importar os arquivos

Fonte: BigQuery

Figura 11 – Janela para importar os arquivos

Fonte: BigQuery
3.2.1 Tratamento

Criou-se uma tabela para fazer a limpeza dos dados, pois os arquivos já
estavam em um bom formato para ser carregado no DW e havia pouca limpeza a
se fazer. Então, será mostrado como ocorreu o tratamento de acordo com a
necessidade.

● master_churn

Figura 12 – Limpeza da variável GENDER

Fonte: BigQuery

Figura 13 – Limpeza da variável AGE

Fonte: BigQuery

1. Nome da tabela criada no BigQuery para realizar limpeza dos dados.


2. Na variável "Age" a idade máxima foi de 119 anos e alguns registos que
continham valores negativos e zeros.
3. Foi criado um filtro para evitar que sejam considerados os registos de clientes
com idades superiores a 80 anos e não considerar os registros negativos ou
zeros na variável “Monthly Charge”.
4. Além disso, foi preciso padronizar as categorias da variável Gender, ou seja,
converter a categoria “M” para Masculino e a categoria “F” para Feminino.

3.2.3 Carga

Esta etapa consiste em carregar os dados integrados e tratados em um


bancode dados destino. Após o download dos arquivos para o Computador, eles
foram importados para o BigQuery conforme supracitado.
O carregamento das tabelas ocorreu no BigQuery. O banco de dados foi
criado com tabelas de acordo com as necessidades para as análises e criação dos
dashboards, que serão apresentados nos passos seguintes.
A seguir é possível analisar a figura do processo de cada tabela carregada.

Figura 14 – Imagem das tabelas carregadas no BigQuery

Fonte: BigQuery

Após importar todas as tabelas, criou-se uma tabela para unificar todas as
informações em uma única tabela, nomeou-se de master_churn. Conforme vemos
na figura a seguir:
Figura 15 – Criação da tabela master_churn

Fonte: BigQuery

Figura 16 – Dados da tabela master_churn

Fonte: BigQuery
Figura 17 – Dados da tabela master_churn

Fonte: BigQuery

Figura 18 – Dados da tabela master_churn

Fonte: BigQuery

4. Links

No Google Drive foram disponibilizados os arquivos de ETL e Limpeza dos


dados no formato PNG na pasta “Imagens do Processo ETL e Limpeza dos Dados”.
Na pasta “Consultas BigQuery” está o link de acesso ao ambiente BigQuery. Na
pasta “Modelo Dimensional” está imagem em formato JPEG do modelo dimensional
criado no software DBDesigner.

Google Drive:
https://drive.google.com/drive/folders/1Fa83S4eLWrZdWCtXWIUutK8nHHpXOMOv?usp=sh
aring

https://colab.research.google.com/drive/1Sg0MEWcBNHR4SIrMSqu12SaCxi3zKs
Ua

5. Apresentação Dashboard

Nesta etapa usaremos técnicas de visualização de dados para melhor


entendimento dos resultados dos dados que foram analisados. O processo de usar
elementos visuais auxilia na tradução de dados complexos, alto volume de dados
ou dados numéricos em uma apresentação visual de fácil entendimento.
Nosso cérebro consegue ter mais facilidade em absorver conteúdos que
tenham imagens, gráficos, desenhos. Por essa razão, o uso de ferramentas DataViz
(Data Visualization) é tão importante em uma apresentação.

Optou-se pela ferramenta de visualização de dados da Microsoft. O Power


BI é a ferramenta líder de mercado segundo relatório da Gartner publicado em
março de 2022, possui um visual bastante intuitivo, conectável a várias fontes de
dados, planilhas, banco de dados e, também, é possível extrair dados da web.
Figura 19 - Quadrante Mágico Plataforma de BI e Analytics

Fonte: Gartner FEVEREIRO 18, 2020

5.1. Dashboard

Segundo Stephen Few (2006) um dashboard é a apresentação visual das


informações mais importantes e necessárias para alcançar um ou mais objetivos de
negócio, consolidadas e ajustadas em uma única tela para que a informação possa
ser monitorada de forma ágil. Todos os cálculos feitos para montagem dos gráficos,
foram feitos no Power Query conforme supracitado nas etapas anteriores. A seguir
serão detalhados cada painel.
5.2. Tela inicial e estratégica

Na tela inicial temos apresentação de dos botões de navegação (Home,


Referidos, Receita e Contrato), as informações iniciais do projeto.

Figura 20 – Página inicial do relatório de apresentação

Fonte: Power BI Desktop

Nesta etapa trouxemos algumas informações como:


• Botão de filtro por gênero;
• Botão de filtro por cidade;
• Número total de clientes da empresa de telecomunicações;
• Número total de cidades em que existem serviços da empresa;
• Número total de dependentes;
• Análise de porcentagem de quantidade de assinaturas por gênero;
• Análise de porcentagem de quantidade de assinaturas por
matrimônio;
• Análise de porcentagem de quantidade de assinaturas por
dependentes;
• Análise de porcentagem de quantidade de assinaturas por idade;
• Análise de porcentagem de quantidade de assinaturas por cidade.

5.3. Tela de análise por referidos (indicações)

Figura 21 – Página das análises de referidos

Fonte: Power BI Desktop

Nesta etapa temos:


• Análise de clientes casados e número de referidos (indicações) feito
em um gráfico de mapa de arvore;
• Análise de número de referidos (indicações) e número de clientes por
cidades feito em um gráfico de barras;
• Análise de número de clientes por referidos (indicações).

5.4. Tela de análise da receita financeira


Figura 22 – Análise de receita financeira dos serviços da empresa de telecomunicações

Fonte: Power BI Desktop

Nesta etapa temos:


• Análise de cliente por grupo de risco, ou seja, clientes com alta
probabilidade de cancelamento dos serviços;
• Análise de total de clientes por contrato;
• Análise da média e total de receita financeira por cidade.

5.5. Tela de análise por contratos


Figura 23 – Página das análises dos contratos

Fonte: Power BI Desktop

Figura 24 – segunda parte da análise

Fonte: Power BI Desktop

Nesta etapa temos:


• Análise dos contratos por meses e anos;
• Análise da porcentagem de clientes por contratos de acordo com meses e
anos;
• Análise de contratos por intervalo de tempo.
REFERÊNCIAS

TAURION, C. Big Data. Rio de Janeiro: Brasport, 2013

POE, Vidette, KLAUER, Patricia, BROBST, Stephen. Building a Data


Warehousefor Decision Support. New Jersey. Prentice-Hall, Inc, 1998.

KIMBALL, Ralph; ROSS, Margy Books. The Data Warehouse toolkit. 2. ed. Rio de
Janeiro: Campus, 2002.

TELCO: Telecom Churn Prediction. Kaggle.


https://www.kaggle.com/datasets/datacertlaboratoria/projeto-5

ETL (extrair, transformar e carregar) - Azure Architecture Center. Microsoft.


https://docs.microsoft.com/pt-br/azure/architecture/data-guide/relational-data/etl

Data Integration In BigQuery. Google Cloud Platform.


https://support.google.com/analytics/answer/4419694?hl=pt-BR#zippy=%2Cneste-
artigo

OSTERGREN, M. A vision for Information Visualization in Information Science.


Proceedings of the 2011 iConference

FEW, S. Information Dashboard Design - The effective Visual Comunication of


Data. [S.l.]: O’Reilly, 2006.

Gartner, Quadrante Gartner de ferramentas de BI. Disponível em:


https://powerbi.microsoft.com/pt-br/why-power-bi/

Power BI, Software de Análise de Negócios. Disponível em:


https://powerbi.microsoft.com/pt-br/

Google Colab, Serviço de Nuvem para Desenvolvimento e Pesquisa. Disponível em:


https://colab.research.google.com/
Link Projeto TCC:
https://colab.research.google.com/drive/1Sg0MEWcBNHR4SIrMSqu12SaCxi3zKsU
a

Você também pode gostar