Pandas PDF

O pacote Pandas – Python para Machine Learning
O Pandas é um dos pacotes da linguagem Python, largamente utilizado

no machine learning e inteligência artificial. Ele fornece ferramentas com
grande poder para manipulação e análise de dados, de maneira simples e
eficiente, conferindo alta performance aos códigos.
É muito utilizado em conjunto com o pacote Numpy, que tem seu foco
em operações matemáticas.
- Carregar em nossa sessão arquivos que estamos acostumados a lidar no

dia a dia
- Importação de planilhas do Excel, em formato .xls ou .xlsx, ou mesmo

arquivos do tipo .csv
- Esses arquivos serão carregados como dataframes Pandas, através de

uma das funções do pacote.
Dataframes do Pandas
- Os dataframes do Pandas podem ser criados de diferentes formas,

sendo a mais comum através da importação de uma base de dados
externa.
- Costumam estar organizados em formato de tabela, organizados em

colunas e linhas.
- O dataframe criado com o Pandas manterá essa organização
- Cada coluna poderá conter um tipo de dado específico
- Cada linha, a respectiva observação
import pandas Ou import pandas as pd

- As funções “read_excel” e “read_csv” são as funções que utilizaremos
para importar um arquivo para nossa sessão
- Na prática acontece uma cópia do arquivo original, de maneira que o

arquivo que está em nosso computador permanecerá o mesmo
read_excel
dados_excel = pd.read_excel(“C:/DT/Dados.xlsx”)
read_csv
dados_csv = pd.read_csv(“C:/DT/Dados.csv”)
Funções básicas
head() – utilizada para retornar as primeiras n(5 por padrão ou n que o
usuário indicar) linhas do dataframe em questão.
shape – retorna a dimensão do dataframe. Ou seja, quantas colunas e

linhas ele possui. Não é uma função, mas sim uma propriedade do
objeto, razão pela qual não indicamos os parênteses.
describe() – retorna estatísticas descritivas de cada coluna numérica do

dataframe.
rename() – renomeia as colunas ou linhas do dataframe. Indicando
nos parênteses “columns ={}”,
- As colunas serão renomeadas de acordo com os dados passados

nas chaves, sendo que deveremos indicar o nome atual e o novo.
- Para alterar os nomes das linhas faremos o mesmo, indicando

“index= {}”.
- Para alterar o dataframe original precisamos indicar o

parâmetro “inplace = True”.
Pd.DataFrame – transforma dicionário em DataFrame

Pd.Series([1,5,4,6]) : Converte listas e arrays para series pandas. (Precisam
ser unidimensionais), espécie de dataframe de uma coluna so.
Np.array ([1,2,3,4,5])
-podem ser unidimensionais ou multidimensionais
- Unidimensional
- Bidimensional
- Operação com Bidimensional

Visualização dos dados:
Diferença entre a visualização de dados no Python com print e display:
Essas duas opções vão te dar o mesmo resultado, no entanto com o

print, nós temos um aspecto mais de bloco de notas (mas ainda
organizado).
- Visualização de apenas uma coluna do dataFrame ( utiliza-se colchete

simples):
- produtos = vendas_df[‘Produto’]
- Visualização de mais de uma coluna do dataFrame (utiliza-se colchetes

duplos):
- produtos = vendas_df[[‘Produto’, ‘ID Loja’]]
Visualização de uma linha, ou linhas, ou até mesmo um valor
específico:
- .loc[]
display(vendas_df.loc[1:5]) : estamos pegando da linha 1 até a linha 5

do dataframe.
vendas_norte = vendas_df.loc[ vendas_df[‘ID Loja’] == ‘Norte

Shopping’] pegando todas as informações, na qual a coluna ID Loja é igual
a Norte Shopping
vendas_norte = vendas_df.loc[ vendas_df[‘ID Loja’] == ‘Norte
Shopping’], [“ID Loja”, “Produto”, “Quantidade”]]
vamos escolher as colunas que vamos armazenar com esses dados
OBS: Lembrando que quando utilizamos os : (dois pontos) dentro do

loc isso significa que estamos querendo selecionar todas as linhas ou
colunas (depende de onde colocou).
- Para isso vamos utilizar o método .append() para indicar que queremos
inserir ao vendas_df as informações da base vendas_dez_df
Nesse caso é importante verificar os argumentos do método .drop(), pois no
primeiro argumento vamos precisar do número da linha ou nome da coluna.
E no segundo argumento temos que ter o eixo que essa ação vai acontecer,
então se o eixo for igual a 0 estaremos no eixo das linhas, caso o eixo seja
igual a 1 estaremos no eixo das colunas.
- Para Tratamento e Análise de Dados

- método .value_counts() que serve para contar os valores que temos
dentro de uma coluna.
- Método .groupby() que é para agrupar por.
- soma das informações com o .sum().
Mesclar 2 dataframes:
IMPORTANTE: É necessário que essas duas tabelas tenham uma
coluna com informações em comum para que a busca possa ser
feita.

Pandas PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Pandas PDF

Enviado por

Direitos autorais:

Formatos disponíveis

O pacote Pandas – Python para Machine Learning

O Pandas é um dos pacotes da linguagem Python, largamente utilizado

- Carregar em nossa sessão arquivos que estamos acostumados a lidar no

- Importação de planilhas do Excel, em formato .xls ou .xlsx, ou mesmo

- Esses arquivos serão carregados como dataframes Pandas, através de

- Os dataframes do Pandas podem ser criados de diferentes formas,

- Costumam estar organizados em formato de tabela, organizados em

- O dataframe criado com o Pandas manterá essa organização

- Cada coluna poderá conter um tipo de dado específico

- Cada linha, a respectiva observação

import pandas Ou import pandas as pd

- Na prática acontece uma cópia do arquivo original, de maneira que o

shape – retorna a dimensão do dataframe. Ou seja, quantas colunas e

describe() – retorna estatísticas descritivas de cada coluna numérica do

- As colunas serão renomeadas de acordo com os dados passados

- Para alterar os nomes das linhas faremos o mesmo, indicando

- Para alterar o dataframe original precisamos indicar o

Pd.DataFrame – transforma dicionário em DataFrame

-podem ser unidimensionais ou multidimensionais

- Operação com Bidimensional

Essas duas opções vão te dar o mesmo resultado, no entanto com o

- Visualização de apenas uma coluna do dataFrame ( utiliza-se colchete

- Visualização de mais de uma coluna do dataFrame (utiliza-se colchetes

display(vendas_df.loc[1:5]) : estamos pegando da linha 1 até a linha 5

vendas_norte = vendas_df.loc[ vendas_df[‘ID Loja’] == ‘Norte

vamos escolher as colunas que vamos armazenar com esses dados

OBS: Lembrando que quando utilizamos os : (dois pontos) dentro do

- Para Tratamento e Análise de Dados

- soma das informações com o .sum().

Você também pode gostar