Você está na página 1de 12

Aula 02

Preparando
Datasets para análise

Turma: Bacharelado em Sistemas de Informação


Osmary Camila Bortoncello Glober (Mary)
osmary.glober@up.edu.br
Objetivos

➢ Introdução ao Pandas
➢ Introdução a Manipulação de Dados
➢ Introdução aos datasets da prefeitura
Introdução ao Pandas

➢ Uma das principais bibliotecas para Ciência de Dados


➢ Muito utilizada para limpeza e preparação dos dados devido a maneira
em que os dados são manuseados
➢ Já possui algumas funções estatísticas
➢ Pandas significa “Python Data Analysis Library”
Ambiente

➢ Google Colab
○ https://github.com/marycamila184/positivo-data-science
Arquivos

➢ Aula 02a - Pandas Introdução.ipynb


○ Dataframes
○ Lendo arquivos
○ Importação de bibliotecas
https://www.kdnuggets.com/2016/03/data-science-process.html
Índices

➢ Aula 02b - Pandas_Índices e Seleção de Valores.ipynb


○ Índices
○ Selecionando linhas
○ Índices hierárquicos
Manipulação dos dados

➢ Aula 02c - Pandas_Manipulação e Agregação de Dados.ipynb


○ Numpy
○ Agrupamento
○ Pivot
○ Crosstab
○ Junção
Dados abertos

➢ Dados abertos são dados que podem ser livremente usados, reutilizados
e redistribuídos por qualquer pessoa - sujeitos, no máximo, à exigência
de atribuição da fonte e compartilhamento pelas mesmas regras.
➢ David Eaves
○ https://eaves.ca/about-david/
Dados abertos

➢ Disponibilidade e Acesso
○ Disponibilidade de uma forma conveniente e modificável.
➢ Reutilização e Redistribuição
○ Reutilização e redistribuição, inclusive a combinação com outros conjuntos de dados.
➢ Participação Universal
○ todos devem ser capazes de usar, reutilizar e redistribuir - não deve haver discriminação
contra áreas de atuação ou contra pessoas ou grupos.
Dados abertos da prefeitura

➢ https://www.curitiba.pr.gov.br/dadosabertos/
○ Várias categorias
○ Dicionário de dados
○ Responsável
○ Frequência de atualização
Exercícios

➢ Aula 02c1 - Exercício-Pandas_Manipulação e Agregação de Dados.ipynb

Você também pode gostar