Você está na página 1de 12

O pacote Pandas – Python para Machine Learning

O Pandas é um dos pacotes da linguagem Python, largamente utilizado


no machine learning e inteligência artificial. Ele fornece ferramentas com
grande poder para manipulação e análise de dados, de maneira simples e
eficiente, conferindo alta performance aos códigos.

É muito utilizado em conjunto com o pacote Numpy, que tem seu foco
em operações matemáticas.

- Carregar em nossa sessão arquivos que estamos acostumados a lidar no


dia a dia

- Importação de planilhas do Excel, em formato .xls ou .xlsx, ou mesmo


arquivos do tipo .csv

- Esses arquivos serão carregados como dataframes Pandas, através de


uma das funções do pacote.

Dataframes do Pandas

- Os dataframes do Pandas podem ser criados de diferentes formas,


sendo a mais comum através da importação de uma base de dados
externa.

- Costumam estar organizados em formato de tabela, organizados em


colunas e linhas.

- O dataframe criado com o Pandas manterá essa organização

- Cada coluna poderá conter um tipo de dado específico

- Cada linha, a respectiva observação

import pandas Ou import pandas as pd


- As funções “read_excel” e “read_csv” são as funções que utilizaremos
para importar um arquivo para nossa sessão

- Na prática acontece uma cópia do arquivo original, de maneira que o


arquivo que está em nosso computador permanecerá o mesmo

read_excel

dados_excel = pd.read_excel(“C:/DT/Dados.xlsx”)

read_csv

dados_csv = pd.read_csv(“C:/DT/Dados.csv”)
Funções básicas
head() – utilizada para retornar as primeiras n(5 por padrão ou n que o
usuário indicar) linhas do dataframe em questão.

shape – retorna a dimensão do dataframe. Ou seja, quantas colunas e


linhas ele possui. Não é uma função, mas sim uma propriedade do
objeto, razão pela qual não indicamos os parênteses.

describe() – retorna estatísticas descritivas de cada coluna numérica do


dataframe.
rename() – renomeia as colunas ou linhas do dataframe. Indicando
nos parênteses “columns ={}”,

- As colunas serão renomeadas de acordo com os dados passados


nas chaves, sendo que deveremos indicar o nome atual e o novo.

- Para alterar os nomes das linhas faremos o mesmo, indicando


“index= {}”.

- Para alterar o dataframe original precisamos indicar o


parâmetro “inplace = True”.

Pd.DataFrame – transforma dicionário em DataFrame


Pd.Series([1,5,4,6]) : Converte listas e arrays para series pandas. (Precisam
ser unidimensionais), espécie de dataframe de uma coluna so.

Np.array ([1,2,3,4,5])

-podem ser unidimensionais ou multidimensionais

- Unidimensional

- Bidimensional

- Operação com Bidimensional


Visualização dos dados:
Diferença entre a visualização de dados no Python com print e display:

Essas duas opções vão te dar o mesmo resultado, no entanto com o


print, nós temos um aspecto mais de bloco de notas (mas ainda
organizado).

- Visualização de apenas uma coluna do dataFrame ( utiliza-se colchete


simples):
- produtos = vendas_df[‘Produto’]

- Visualização de mais de uma coluna do dataFrame (utiliza-se colchetes


duplos):
- produtos = vendas_df[[‘Produto’, ‘ID Loja’]]
Visualização de uma linha, ou linhas, ou até mesmo um valor
específico:
- .loc[]

display(vendas_df.loc[1:5]) : estamos pegando da linha 1 até a linha 5


do dataframe.

vendas_norte = vendas_df.loc[ vendas_df[‘ID Loja’] == ‘Norte


Shopping’] pegando todas as informações, na qual a coluna ID Loja é igual
a Norte Shopping
vendas_norte = vendas_df.loc[ vendas_df[‘ID Loja’] == ‘Norte
Shopping’], [“ID Loja”, “Produto”, “Quantidade”]]

vamos escolher as colunas que vamos armazenar com esses dados

OBS: Lembrando que quando utilizamos os : (dois pontos) dentro do


loc isso significa que estamos querendo selecionar todas as linhas ou
colunas (depende de onde colocou).
- Para isso vamos utilizar o método .append() para indicar que queremos
inserir ao vendas_df as informações da base vendas_dez_df
Nesse caso é importante verificar os argumentos do método .drop(), pois no
primeiro argumento vamos precisar do número da linha ou nome da coluna.
E no segundo argumento temos que ter o eixo que essa ação vai acontecer,
então se o eixo for igual a 0 estaremos no eixo das linhas, caso o eixo seja
igual a 1 estaremos no eixo das colunas.

- Para Tratamento e Análise de Dados


- método .value_counts() que serve para contar os valores que temos
dentro de uma coluna.
- Método .groupby() que é para agrupar por.

- soma das informações com o .sum().

Mesclar 2 dataframes:
IMPORTANTE: É necessário que essas duas tabelas tenham uma
coluna com informações em comum para que a busca possa ser
feita.

Você também pode gostar