Escolar Documentos
Profissional Documentos
Cultura Documentos
Ciência de Dados
Prof. Dr. Anderson Bessa da Costa
2. Importe o dataset, que está no formato do Excel, como um DataFrame usando o método
pd.read_excel(), como mostrado neste fragmento:
df = pd.read_excel(’../Data/default_of_credit_card_clients_courseware_version_1_21_19.xls’)
Observe que você precisa apontar o leitor do Excel para o local onde o arquivo está
localizado. Se ele estiver no mesmo diretório de seu notebook, é possível inserir apenas
o nome do arquivo. O método pd.read_excel carregará o arquivo do Excel em um
DataFrame, que chamamos de df. Agora o poder do pandas está disponível para nós.
3. Use o método .shape para examinar o número de linhas e colunas, como mostrado na
linha de código a seguir:
df.shape
Ela deve coincidir com (30000, 25). Caso contrário, será preciso inspecionar as diversas
opções de pd.read_excel para ver se é necessário ajustar algo.
Com esse exercício, carregamos com sucesso nosso dataset no Jupyter Notebook. Você
também pode examinar os métodos .info() e .head(), que fornecerão informações sobre
todas as colunas e mostrarão as primeiras linhas do DataFrame, respectivamente. Agora
você já está com seus dados no pandas.
Como observação final, embora já deva ter ficado claro, é bom ressaltar que, se você definir
uma variável em uma única célula de código, ela ficará disponível em outras células de
código dentro do notebook. As células de código de um notebook compartilham o escopo
contanto que o kernel esteja sendo executado.