Escolar Documentos
Profissional Documentos
Cultura Documentos
NumPy e Pandas
Dentre os principais pacotes que formam o stack de ciência de dados do Python,
estão o NumPy, Pandas, Matplotlib, SciPy, Scikit-Learn, Bokeh, StatsModels e
o Seaborn. Pretendo mostrar um pouco de cada um deles nesta sequência de
posts.
Lembrando que, caso você já utilize o Anaconda, todos os pacotes citados acima
já estão inclusos.
NumPy
O NumPy é um pacote voltado para computação matemática, e um dos mais
importantes do PyData Stack. Ele oferece as bases matemáticas necessárias
para construção de modelos de deep learning, machine learning e,
consequentemente, aplicações de inteligência artificial. É possível utilizar os
objetos nativos do NumPy para criação arrays ou matrizes, e assim usufruir das
funções matemáticas oferecidas para operações com esses objetos.
Vamos começar importando o NumPy. Também é possível utilizar: from numpy
import * . Isso evitará a utilização de np., mas este comando importará todos os
módulos do NumPy.
# Importando o NumPy
import numpy as np
Agora vamos criar uma matriz e utilizar os alguns dos métodos fornecidos
pelo NumPy:
matriz = np.matrix(lista)
type(matriz)
#=> numpy.matrixlib.defmatrix.matrix
# Formato da matriz
np.shape(matriz)
#=> (3, 3)
print(matriz.dtype)
#=> int64
np.mean(A)
#=> 54.0
np.std(A)
#=> 30.34468652004828
# Calculando a variância
np.var(A)
#=> 920.8
Pandas
import pandas as pd
Series e DataFrame
Principal diferença entre esses dois tipos de Estrutura de Dados.
>>> data = {
'País': ['Bélgica', 'Índia', 'Brasil'],
'Capital': ['Bruxelas', 'Nova Delhi',
'Brasília'],
'População': [123465, 456789, 987654]
}
#Criando o DataFrame
>>> df = pd.DataFrame(data,
columns=['País','Capital','População'])
>>> pd.read_csv('nome_do_arquivo.csv',
encoding='ISO-8859-1')
>>> pd.to_csv('nome_do_arquivo_para_salvar.csv')
>>> xlsx =
pd.ExcelFile('seu_arquivo_excel.xlsx')
>>> df = pd.read_excel(xlsx, 'Planilha 1')
s.drop([0, 1])
df.drop('País', axis=1)
Coletando informações básicas sobre o DataFrame:
>>> df.shape
#Descrição do Index
>>> df.index
>>> df.columns
>>> df.count()
>>> df.sum()
>>> df.min()
#Maior valor
>>> df.max()
>>> df.idmin()
>>> df.idmax()
>>> df.describe()
>>> df.mean()
#Mediana dos valores
>>> df.median()
Aplicando funções:
Ordenando valores:
#Ordenando em ordem crescente
df.sort_values()
df.sort_values(ascending=False)
>>> s.add(2)
>>> s.sub(2)
>>> s.mul(2)
df[df['População'] % 2 == 0]
Selecionando valores:
df.loc[0, 'País']