Você está na página 1de 26

MANUAL

COMPLETO DO
PANDAS
Guia prático para análise de
dados em Python

@F3loc
INÍCIO

QUEM SOU EU?

Olá, meu nome é Fernanda Santos, sou formada em


gestão da informação e mestra em ciência da
computação. Apaixonada por esse mundo de análise
de dados, comecei com o Excel, depois entrei no
mundo do Business Intelligence e atualmente sou
cientista de dados e professora na área de Data
Analytics. Este E-book irá mergulhar em um mar de
conhecimento na biblioteca Pandas, preparado(a)
para dominar a biblioteca mais queridinha em análise
de dados com Python?

@F3loc
INTRODUÇÃO
BEM-VINDO(A) AO "MANUAL
COMPLETO DO PANDAS - GUIA
PRÁTICO PARA ANÁLISE DE DADOS
EM PYTHON"
Se você está mergulhando no vasto mundo da análise de dados
em Python, o Pandas é o seu melhor amigo. Vamos desbravar
juntos esta biblioteca incrível que torna a manipulação e
análise de dados uma experiência fluida e intuitiva.

O que é o Pandas?

O Pandas não é só uma biblioteca. É a sua varinha


mágica para transformar conjuntos de dados crus
em informações valiosas. Desenvolvido por Wes
McKinney, o Pandas é uma biblioteca open-source
que fornece estruturas de dados fáceis de usar e
ferramentas de análise de dados para a linguagem
de programação Python.

Imagine o Pandas como o Excel do mundo Python,


mas com superpoderes adicionais. Com ele, você
pode importar, limpar, transformar, analisar e
visualizar dados com facilidade. Seja você um
iniciante ou um veterano em Python, o Pandas vai
simplificar sua jornada na análise de dados.

@F3loc
INSTALAÇÃO E
CONFIGURAÇÃO
Antes de começarmos, precisamos garantir que
você tenha o Pandas instalado.
Se você já utiliza o Anaconda ou o Jupyter Notebook
você já deve ter o Pandas instalado em sua máquina,
caso você só tenha instalado o Python, você
precisará instalar o Pandas, para isso, abra o seu
terminal e digite:

pip install pandas

Caso você não tenha nada instalado ainda, só clicar


na imagem abaixo e você será redirecionado(a) para
um tutorial onde mostro como baixar o Anaconda
navigator, uma plataforma completa de ciência de
dados.

Mas, se você preferir, você pode praticar online, sem


precisar baixar nenhuma ferramenta em sua
máquina, o Google disponibiliza um serviço em
nuvem chamado Google Colab, só clicar na imagem
abaixo:

@F3loc
ESTRUTURAS DE
DADOS
O coração do Pandas é formado por duas estruturas
principais: as Series e os DataFrames.
As Series são como as colunas de uma planilha Excel.
Elas podem armazenar qualquer tipo de dado e são
indexadas, o que facilita muito a busca e
manipulação.
Agora vamos colocar a mão na massa e criar uma
Series, o primeiro passo sempre será importar a
biblioteca Pandas, já que ela não é nativa do Python:

Para facilitar a nossa vida, usamos o as pd ao final


para dar um apelido ao Pandas, assim, sempre que
formos escrever nosso código não vamos precisar
escrever pandas e sim pd.

@F3loc
ESTRUTURAS DE
DADOS
Agora sim, para criar uma Series utilizamos o
pd.Series:

Perceba que a saída é uma coluna com os valores


10,20,30,40 e 50. E se você quiser ter certeza que é
uma Series do Pandas, basta escrever
type(minha_serie):

@F3loc
ESTRUTURAS DE
DADOS
Já os DataFrames são a estrela do show. Eles são
tabelas bidimensionais, como uma planilha, com
linhas e colunas que você pode nomear e acessar de
maneira super intuitiva. Para criar um DataFrame
primeiro vamos criar um dicionário e depois passar
esse dicionário para pd.DataFrame:

Perceba que agora temos uma saída com linhas e


colunas, formato muito semelhante a uma planilha
do Excel.
Pronto para começar sua jornada com o Pandas? Ao
longo deste manual, vamos explorar essas estruturas
de dados, aprender a manipular informações, e
descobrir os segredos para análises poderosas.
Prepare-se para uma jornada emocionante no
universo do Pandas!

@F3loc
MANIPULAÇÃO DE
DADOS COM PANDAS
Agora vamos explorar as habilidades mágicas do
Pandas na manipulação de dados. Prepare-se para
aprender a importar, filtrar, selecionar e ordenar
dados como um verdadeiro mestre da análise de
dados!

Leitura e escrita de dados:

O Pandas facilita a importação de dados de várias


fontes, desde arquivos CSV até bancos de dados SQL.
Vamos começar com algo simples: importar dados de
um arquivo de Excel:

No exemplo acima, estamos lendo uma planilha do


Excel chamada Vendas e armazenando na variável
chamada dados. Como é possível observar utilizamos
o método read_excel do Pandas para fazer a leitura,
caso você queira ler um csv basta utilizar o read_csv.

@F3loc
MANIPULAÇÃO DE
DADOS COM PANDAS
Para visualizar as 5 primeiras linhas do nosso conjunto
de dados, utilizaremos o método head:

Por padrão, o head sempre retornará as 5 primeiras


linhas, mas caso você queira visualizar, por exemplo,
as 10 primeiras linhas, basta passar:
dados.head(10)

Caso você queira visualizar as 5 últimas linhas, você


pode utilizar o método tail:

@F3loc
MANIPULAÇÃO DE
DADOS COM PANDAS

Para retornar a quantidade de linhas e colunas você


pode utilizar o atributo shape:

Todo objeto Dataframe tem um atributo shape que


retorna a quantidade de linhas e de colunas, sendo
assim, nosso dataset tem 70055 linhas e 10 colunas.

@F3loc
MANIPULAÇÃO DE
DADOS COM PANDAS

Agora, se você quiser retornar apenas os nomes de


todas as colunas, basta passar dados.columns:

Uma informação muito importante quando estamos


trabalhando em um projeto de análise de dados, é
verificar se o Pandas reconheceu corretamente o tipo
de dado para cada variável, para fazer essa
verificação tem o dtypes que vai retornar o nome das
colunas e o tipo de dado de cada uma delas:

@F3loc
MANIPULAÇÃO DE
DADOS COM PANDAS

O tipo do pandas object é equivalente ao tipo string


no Python, int64 é do tipo inteiro, float64 do tipo float
e datetime para variáveis de Data.

Agora que temos dados, como podemos acessá-los


de maneira eficiente? O Pandas oferece várias
maneiras de selecionar dados.

Selecionando uma coluna específica:

@F3loc
MANIPULAÇÃO DE
DADOS COM PANDAS

Selecionando linhas com base em uma condição:

Agora, se você quiser ordenar o seu conjunto de


dados por uma coluna específica, você pode utilizar o
sort_values:

@F3loc
MANIPULAÇÃO DE
DADOS COM PANDAS

Perceba que foi passado o parâmetro ascending para


especificar se a ordenação será ascendente ou
descendente.

Agora que você já sabe como identificar o tipo de


dado de cada coluna, o código abaixo mostra como é
possível alterar o tipo de dado de uma determinada
variável, neste caso a coluna ID Produto que está com
o tipo inteiro, será alterada para object, já que não
será realizado nenhum cálculo com essa variável:

Para ter certeza que foi alterado, você pode rodar o


dtypes novamente:

@F3loc
LIMPEZA E
TRANSFORMAÇÃO DE
DADOS COM PANDAS
Aqui, vamos aprender a arte da limpeza e
transformação de dados usando as ferramentas
poderosas do Pandas. Prepare-se para deixar seus
conjuntos de dados impecáveis e prontos para revelar
insights valiosos!

Tratamento de valores ausentes:

Lidar com valores ausentes é uma parte crucial da


análise de dados. O Pandas facilita essa tarefa,
permitindo identificar e lidar com valores nulos de
maneira eficaz.

@F3loc
LIMPEZA E
TRANSFORMAÇÃO DE
DADOS COM PANDAS
Como é possível observar, a coluna Valor Desconto
possui 20244 valores ausentes. é possível preencher
esses valores ou até mesmo excluir essas linhas:

Preenchendo as linhas com valores ausentes com 0:

Apagando as linhas com valores ausentes:

O inplace = True significa que estamos apagando em


memória, ou seja, daqui pra frente não teremos mais
essas linhas em nosso conjunto de dados.

Agora, vamos dar um passo além e aprender a


transformar nossos dados. Podemos aplicar funções
a colunas inteiras, criar novas colunas com base em
operações existentes e muito mais.

@F3loc
LIMPEZA E
TRANSFORMAÇÃO DE
DADOS COM PANDAS
Uma análise que pode ser feita, é saber em quantos
dias o produto foi enviado, na base de dados temos 2
colunas de datas, Data Venda e Data Envio, para
calcular o total de dias para envio do produto, basta
fazer pegar a Data Envio - Data Venda:

Agora você tem uma nova coluna em seu Dataframe


chamada Tempo_Envio:

@F3loc
ANÁLISE
EXPLORATÓRIA DE
DADOS COM PANDAS
Prepare-se para descobrir insights ocultos, visualizar
tendências e extrair conhecimento valioso de seus
conjuntos de dados!

Estatísticas Descritivas:

Vamos começar analisando estatísticas descritivas


para entender melhor a natureza dos nossos dados:

@F3loc
ANÁLISE
EXPLORATÓRIA DE
DADOS COM PANDAS
O método describe() vai retornar a contagem, média,
desvio padrão, valor mínimo, os percentis e o valor
máximo para todas as colunas numéricas do seu
conjunto de dados.

Visualizando a média de uma coluna específica:

Agrupamento e Agregação:

O Pandas facilita o agrupamento de dados por


categorias e a aplicação de funções de agregação
para extrair informações significativas, por exemplo, é
possível retornar a quantidade de produtos vendidos
por mês, agrupando pelo mês e em seguida pegando
a soma da coluna quantidade:

@F3loc
ANÁLISE
EXPLORATÓRIA DE
DADOS COM PANDAS

Perceba que para extrair o mês da coluna Data Venda


foi utilizado o dados["Data Venda"].dt.month,
seguindo essa mesma lógica você também consegue
extrair o ano, trimestre, dia da semana e etc...

@F3loc
ANÁLISE
EXPLORATÓRIA DE
DADOS COM PANDAS
Visualização de Dados com Pandas:

A visualização de dados é uma parte crucial da análise


exploratória de dados. Felizmente, o Pandas possui
recursos integrados para criar visualizações simples e
informativas. Podemos facilmente criar um gráfico
com a informação da quantidade de produtos
vendidos por mês apenas colocando um .plot ao final
do código:

@F3loc
ANÁLISE
EXPLORATÓRIA DE
DADOS COM PANDAS
Total de produtos vendidos por ano:

Você pode adicionar um título ao seu gráfico


passando o parâmetro title:

@F3loc
ANÁLISE
EXPLORATÓRIA DE
DADOS COM PANDAS

@F3loc
CONCLUSÃO

E aqui estamos, ao final da nossa jornada no universo


do Pandas. Espero que tenha aproveitado cada
momento, desvendando os segredos dessa biblioteca
poderosa e versátil para análise de dados em Python.
Vamos recapitular o que exploramos e incentivar você
a continuar sua trajetória na análise de dados

Durante este manual, aprendemos:

1. Fundamentos do Pandas: Descobrimos as


estruturas fundamentais, as Series e os
DataFrames, que são a base para qualquer análise
de dados eficaz.
2. Manipulação de Dados: Dominamos a importação,
seleção e ordenação de dados, tornando-nos
verdadeiros maestros na manipulação de
conjuntos de dados complexos.
3. Limpeza e Transformação de Dados: Aprendemos
a lidar com valores ausentes, dados duplicados e a
realizar transformações poderosas para preparar
nossos dados para análises mais profundas.
4. Análise Exploratória de Dados: Exploramos
estatísticas descritivas, técnicas de agrupamento
e agregação, além de criar visualizações
cativantes para compreender melhor a essência
dos nossos dados.

@F3loc
CONCLUSÃO

Lembre-se, a análise de dados é uma jornada


contínua de aprendizado. Aqui estão algumas dicas
para continuar aprimorando suas habilidades:
Prática constante: Aplique o que aprendeu em
conjuntos de dados reais. Quanto mais praticar,
mais intuitivas serão suas decisões durante a
análise.
Explore a documentação: O Pandas tem uma
documentação rica. Sempre consulte-a para
descobrir novas funcionalidades e melhores
práticas.
Participe de comunidades: Junte-se a
comunidades online, fóruns e grupos de
discussão. Compartilhe conhecimento e aprenda
com a experiência de outros analistas de dados.
Projetos pessoais: Inicie projetos próprios. A
aplicação prática é uma maneira poderosa de
consolidar o conhecimento.
A análise de dados é uma jornada emocionante e
dinâmica, e o Pandas é sua bússola confiável.
Continue explorando, descobrindo e, acima de tudo,
divirta-se analisando dados!
Agradeço por ter embarcado nesta jornada comigo.
Se tiver dúvidas, sugestões ou simplesmente quiser
compartilhar suas conquistas, estamos sempre aqui.
Boas análises!

@F3loc
QUER
APRENDER
MAIS?
Conheça a Formação de análise
de dados:

Do zero ao avançado em
ciência de dados
Aulas ao vivo 2x por mês
100% prático
CLIQUE AQUI

Você também pode gostar