Você está na página 1de 2

Analisando dados com Python

Desafio: empresa com +800mil clientes e a maioria está cancelando o serviço.


Descobrir os motivos do cancelamento e prover uma solução para que os cancelamento
sejam evitados.

## Como começar?

1) Fazer passo a passo do projeto


2) Traduzir os passos para Python

## Passos

1) Importar os dados
2) Vizualizar os dados
3) Tratamento de erros (resolver as cagadas da base de dados)
4) Análise inicial dos dados (como estão os cancelamentos)
5) Análise profunda dos dados

## Instalação

instalar pacotes

pip install
pandas
numpy
openpyxl
plotly

1) Importar os dados

import pandas

tabela = pandas.read_csv("cancelamentos.csv")
display(tabela)

2) Vizualizar os dados

print
display (tabela fica mais bonita)

display(tabela.info())

3) Tratamento de erros (resolver as cagadas da base de dados)

## Tratar valores vazios

tabela = tabela.dropna() -- deleta valores vazio

## informação que não te ajuda, te atrapalha

## comando .drop

por padrão exclui linhas e colunas vazias

linha > axis = 0


coluna > axis = 1

## excluir coluna de CustomerID

tabela = tabela.drop("CustomerID", axis=1) -- nome igual de como está na tabela

## Excluir mais de uma coluna ao mesmo tempo entre colchetes

["CustomerID", "nome", "idade"]

4) Análise inicial dos dados (como estão os cancelamentos)

display(tabela["cancelou"].value_counts()) -- mostra a quantidade de valores


diferentes
display(tabela["cancelou"].value_counts(normalize=True)) -- mostra o percentual de
valores

## Comando de agrupamento

tabela.groupby("duracao_contrato").count()) -- contagem das outra colunas


tabela.groupby("assinatura").mean()) -- média das outras colunas

## contrato mensal sempre cancela

tabela = tabela[tabela["duracao_contrato"]!="Monthy"]

5) Análise profunda dos dados

import plotly.express as px -- apelido para o comando plotly.express

for coluna in tabela.columns:


grafico = px.histogram(tabela, x="coluna", color="cancelou")
grafico.show()

Você também pode gostar