Escolar Documentos
Profissional Documentos
Cultura Documentos
Demonstração ao vivo
import pandas as pd
data = [['Alex',10],['Bob',12],['Clarke',13]]
df = pd.DataFrame(data,columns=['Name','Age'])
print df
import pandas as pd
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':
[28,34,29,42]}
df = pd.DataFrame(data)
print df
import pandas as pd
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':
[28,34,29,42]}
df = pd.DataFrame(data,
index=['rank1','rank2','rank3','rank4'])
print df
Sua saída é a seguinte −
Age Name
rank1 28 Tom
rank2 34 Jack
rank3 29 Steve
rank4 42 Ricky
import pandas as pd
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data)
print df
import pandas as pd
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data, index=['first', 'second'])
print df
del df['one']
df.pop('two')
soma()
Devolve a soma dos valores para o eixo solicitado. Por padrão, eixo é índice
(eixo=0).
print df.sum()
print df.mean()
print df.std()
Resumindo dados
A função describe() computa um resumo das estatísticas relativas às colunas
DataFrame.
print df.describe()
Ordem de Classificação
df = df.sort_index(ascending=False)
df = df.sort_values(by='col1')
loc
iloc
df['col'].isnull()
print df.dropna(axis=1)
Substituir valores genéricos ausentes
df = pd.DataFrame({'one':[10,20,30,40,50,2000], 'two':
[1000,0,30,40,50,60]})
print df.replace({1000:10,2000:60})
group by
print df
print df.groupby('Team').groups
print df.groupby(['Team','Year']).groups
grouped = df.groupby('Year')
2015
Points Rank Team Year
1 789 2 Riders 2015
3 673 3 Devils 2015
5 812 4 kings 2015
10 804 1 Royals 2015
2016
Points Rank Team Year
6 756 1 Kings 2016
8 694 2 Riders 2016
2017
Points Rank Team Year
7 788 1 Kings 2017
11 690 2 Riders 2017
grouped = df.groupby('Year')
print grouped.get_group(2014)
Sua saída é a seguinte −
Points Rank Team Year
0 876 1 Riders 2014
2 863 2 Devils 2014
4 741 3 Kings 2014
9 701 4 Royals 2014
grouped = df.groupby('Year')
print grouped['Points'].agg(np.mean)
grouped = df.groupby('Team')
print grouped['Points'].agg([np.sum, np.mean, np.std])
Transformações
grouped = df.groupby('Team')
score = lambda x: (x - x.mean()) / x.std()*10
print grouped.transform(score)
import pandas as pd
data = pd.read_csv('path/input.csv')
print (data)
binom.rvs(size=10,n=20,p=0.8)
data_binom = binom.rvs(n=20,p=0.8,loc=0,size=1000)
ax = sb.distplot(data_binom,
kde=True,
color='blue',
hist_kws={"linewidth": 25,'alpha':1})
ax.set(xlabel='Binomial', ylabel='Frequency')
Python - Distribuição Poisson
Uma distribuição Poisson é uma distribuição que mostra o número provável de vezes
que um evento ocorrerá dentro de um período de tempo pré-determinado. É usado
para eventos independentes que ocorrem a uma taxa constante dentro de um
determinado intervalo de tempo. A distribuição de Poisson é uma função discreta, o
que significa que o evento só pode ser medido como ocorrendo ou não como
ocorrendo, o que significa que a variável só pode ser medida em números inteiros.
data_bern = bernoulli.rvs(size=1000,p=0.6)
ax = sb.distplot(data_bern,
kde=True,
color='crimson',
hist_kws={"linewidth": 25,'alpha':1})
ax.set(xlabel='Bernouli', ylabel='Frequency')
Python - Regressão Linear
Na Regressão Linear essas duas variáveis estão relacionadas através de uma
equação, onde expoente (poder) de ambas as variáveis é 1. Matematicamente uma
relação linear representa uma linha reta quando traçada como um gráfico. Uma
relação não linear onde o expoente de qualquer variável não é igual a 1 cria uma
curva.
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('tips')
sb.regplot(x = "total_bill", y = "tip", data = df)
plt.show()