Você está na página 1de 1

Universidade Federal da Grande Dourados

Ciência de Dados
Prof. Dr. Anderson Bessa da Costa

Lista 3 - Carregando os Dados

1. Crie um novo Jupyter Notebook. Digite import pandas as pd na nova célula.


Quando você executar essa célula, a biblioteca pandas será carregada em seu ambiente
de computação. É comum a importação com “as” para que seja criado um alias para
a biblioteca. Agora usaremos o pandas para carregar o arquivo de dados. Ele está no
formato do Microsoft Excel, logo, podemos usar pd.read_excel.
Nota: Para obter mais informações sobre todas as opções possíveis para pd.read_excel,
consulte a documentação a seguir:
https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html.

2. Importe o dataset, que está no formato do Excel, como um DataFrame usando o método
pd.read_excel(), como mostrado neste fragmento:

df = pd.read_excel(’../Data/default_of_credit_card_clients_courseware_version_1_21_19.xls’)

Observe que você precisa apontar o leitor do Excel para o local onde o arquivo está
localizado. Se ele estiver no mesmo diretório de seu notebook, é possível inserir apenas
o nome do arquivo. O método pd.read_excel carregará o arquivo do Excel em um
DataFrame, que chamamos de df. Agora o poder do pandas está disponível para nós.

3. Use o método .shape para examinar o número de linhas e colunas, como mostrado na
linha de código a seguir:
df.shape
Ela deve coincidir com (30000, 25). Caso contrário, será preciso inspecionar as diversas
opções de pd.read_excel para ver se é necessário ajustar algo.
Com esse exercício, carregamos com sucesso nosso dataset no Jupyter Notebook. Você
também pode examinar os métodos .info() e .head(), que fornecerão informações sobre
todas as colunas e mostrarão as primeiras linhas do DataFrame, respectivamente. Agora
você já está com seus dados no pandas.
Como observação final, embora já deva ter ficado claro, é bom ressaltar que, se você definir
uma variável em uma única célula de código, ela ficará disponível em outras células de
código dentro do notebook. As células de código de um notebook compartilham o escopo
contanto que o kernel esteja sendo executado.

Você também pode gostar