ipynb - Colaboratory
pip freeze
Um dos grandes diferenciais do Python é a sua enorme variedade de bibliotecas que são úteis
para diversos tipos de aplicações. No Google Colab, várias delas já vem pré-instaladas, o que
torna fácil importá-las e aproveitar seus recursos.
Na aula de hoje, vamos estudar três bibliotecas que são fundamentais na análise de dados,
quaisquer que sejam as áreas de estudo.
Média aritmética
A média aritmética é a soma dos dados dividida pela quantidade de dados. É comumente
chamada apenas de “média”, apesar de ser uma das diversas médias matemáticas. Ela
representa uma medida da localização central dos dados.
Mediana
A mediana é uma medida robusta de localização central e é menos afetada por valores
discrepantes. Quando a quantidade de pontos de dados for ímpar, o valor de meio é retornado.
Quando o número de elementos for par, a mediana é calculada tomando-se a média entre os
dois valores no meio.
Moda
A moda (quando existe) é o valor mais repetido e serve como uma medida de localização
central.
Variância
Desvio padrão
É a raiz quadrada da variância amostral. Também representa uma idéia da dispersão dos dados
e, ao contrário da variância, está na mesma unidade dos dados.
statistics (https://docs.python.org/pt-br/dev/library/statistics.html)
Esse módulo fornece funções para o cálculo de estatísticas matemáticas de dados numéricos
(para valores do tipo Real). Ela destina-se ao nível de calculadoras gráficas e científicas.
https://colab.research.google.com/drive/1Z_p8mbMLSOHvSTipXZZBv4d_m6tU6YQC#printMode=true 1/6
27/11/2022 22:43 Estude 4- Bibliotecas Python e Google Colab-BIOINF-03112022.ipynb - Colaboratory
#Primeiro passo: importar a biblioteca
import statistics
#Segundo passo: apresentar os dados
x = [20, 21, 23, 20, 21, 23, 20, 21, 23, 20, 22, 24, 20, 22, 24, 20, 22, 65, 21, 23]
#Terceiro passo: aplicar as funções estatísticas
#max(x): maior valor de x
maior = max(x)
print('O maior valor é', maior)
#min(x): menor valor de x
menor = min(x)
print('O menor valor é', menor)
#statistics.mean(x): média aritmética de x
media = statistics.mean(x)
print('A média aritmética é', media)
#statistics.median(x): mediana de x
mediana = statistics.median(x)
print('A mediana é', mediana)
#statistics.mode(x): moda de x
moda = statistics.mode(x)
print('A moda é', moda)
#statistics.stdev(x): desvio padrão de x
desvpad = statistics.stdev(x)
print('O desvio padrão é', desvpad)
O maior valor é 65
O menor valor é 20
A mediana é 21.5
A moda é 20
Numpy
O NumPy, abreviatura de Numerical Python, é a biblioteca básica mais importante para o uso
da análise de dados com Python. Os recursos do uso desse pacote permitem ao usuário
realizar operações matemáticas, manipulação de vetores e dados entre outras diversas
funcionalidade.
#Primeiro passo: importar a biblioteca
#Atribuimos um “apelido” ao numpy: np
#Esse apelido é uma convenção e agiliza no desenvolvimento, dado que não necessitamos escr
import numpy as np
#Segundo passo: apresentar os dados
https://colab.research.google.com/drive/1Z_p8mbMLSOHvSTipXZZBv4d_m6tU6YQC#printMode=true 2/6
27/11/2022 22:43 Estude 4- Bibliotecas Python e Google Colab-BIOINF-03112022.ipynb - Colaboratory
y = [20, 21, 23, 20, 21, 23, 20, 21, 23, 20, 22, 24, 20, 22, 24, 20, 22, 65, 21, 23]
#Terceiro passo: aplicar as funções estatísticas
#np.max(x): maior valor de x
maior_np = np.max(y)
print('O maior valor é',maior_np)
#np.min(x): menor valor de x
menor_np = np.min(y)
print('O menor valor é',menor_np)
#np.mean(x): média aritmética de x
media_np = np.mean(y)
print('A média aritmética é',media_np)
#np.median(x): mediana de x
mediana_np = np.median(y)
print('A mediana é',mediana_np)
#moda de x
# moda =
# print('A moda é', moda)
#np.std(x): desvio padrão de x
desviopad_np = np.std(y, ddof = 1)
print('O desvio padrão é',desviopad_np)
O maior valor é 65
O menor valor é 20
A mediana é 21.5
Pandas
Pandas foi desenvolvido como uma camada acima do NumPy, mas boa parte de suas
funcionalidades de análise estatística são feitas pelo SciPy, além do uso do Matplotlib para
funções de visualização. Dessa forma, pandas simplifica o uso de diversas bibliotecas úteis
para estatísticos e cientistas de dados.
# Importar biblioteca
from pandas import DataFrame
# Criar DataFrame
carrinho = {'Produto': ['Celular', 'AC', 'Celular', 'Sofá', 'Notebook'],
'Preço': [20000, 28000, 22000, 19000, 45000],
'Ano': [2014, 2015, 2016, 2017, 2018]
}
df = DataFrame(carrinho, columns = ['Produto', 'Preço', 'Ano'])
# DataFrame Original
print("DataFrame Original:\n", df)
https://colab.research.google.com/drive/1Z_p8mbMLSOHvSTipXZZBv4d_m6tU6YQC#printMode=true 3/6
27/11/2022 22:43 Estude 4- Bibliotecas Python e Google Colab-BIOINF-03112022.ipynb - Colaboratory
# Descrevendo estatística descritiva de Preço
print("\nEstatística descritiva de Preço:\n")
stats = df['Preço'].describe()
print(stats)
DataFrame Original:
1 AC 28000 2015
count 5.000000
mean 26800.000000
std 10756.393448
min 19000.000000
25% 20000.000000
50% 22000.000000
75% 28000.000000
max 45000.000000
# Importar biblioteca
from pandas import DataFrame
# Criar DataFrame
pesquisa = {'Curso': ['Fisio', 'Psico', 'Psico', 'Nut', 'Far'],
'Idade': [23, 45, 21, 30, 29],
'Peso': [67, 78, 90, 87, 76]
}
df = DataFrame(pesquisa, columns = ['Curso', 'Idade', 'Peso'])
# DataFrame Original
print("DataFrame Original:\n", df)
# Descrevendo estatística descritiva de Idade
print("\nEstatística descritiva de Idade:\n")
stats = df['Idade'].describe()
print(stats)
# Descrevendo estatística descritiva de Peso
print("\nEstatística descritiva de Peso:\n")
stats2 = df['Peso'].describe()
print(stats2)
DataFrame Original:
0 Fisio 23 67
1 Psico 45 78
2 Psico 21 90
3 Nut 30 87
4 Far 29 76
https://colab.research.google.com/drive/1Z_p8mbMLSOHvSTipXZZBv4d_m6tU6YQC#printMode=true 4/6
27/11/2022 22:43 Estude 4- Bibliotecas Python e Google Colab-BIOINF-03112022.ipynb - Colaboratory
count 5.000000
mean 29.600000
std 9.423375
min 21.000000
25% 23.000000
50% 29.000000
75% 30.000000
max 45.000000
count 5.000000
mean 79.600000
std 9.181503
min 67.000000
25% 76.000000
50% 78.000000
75% 87.000000
max 90.000000
Matplotlib
Ao apresentar resultados, além dos números, podemos utilizar outros meios para transmitir
melhor a mensagem: gráficos, diagramas, ...
import matplotlib.pyplot as plt
x1 = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
y1 = [1, 1, 2, 3, 5, 8, 13, 21, 34, 55]
plt.plot(x1, y1)
https://colab.research.google.com/drive/1Z_p8mbMLSOHvSTipXZZBv4d_m6tU6YQC#printMode=true 5/6
27/11/2022 22:43 Estude 4- Bibliotecas Python e Google Colab-BIOINF-03112022.ipynb - Colaboratory
[<matplotlib.lines.Line2D at 0x7f92945def10>]
https://colab.research.google.com/drive/1Z_p8mbMLSOHvSTipXZZBv4d_m6tU6YQC#printMode=true 6/6