Você está na página 1de 5

1 – IMPORTANDO BLIBLIOTECAS (NUMPY, PANDAS, MATPLOTLIB)

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import colorsys
plt.style.use('seaborn-talk')
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline

2 – CARREGANDO ARQUIVO

2.1 – CARREGANDO ARQUIVO (CSV)

BASE = pd.read_csv(‘base.cvs’, sep=’;’, low_memory=False, decimal=",", parse_dates


=['DAT_ATEND_EFETIVO_SELECIONADO']);
Sep – comando que especifica o separador de colunas;
low_memory - Para colunas com tipos de dados String usar o comando
low_memory=False;
decimal – especifica o separador de casas decimais;
parse_dates – converte uma variável em data;
encoding = 'unicode_escape' – especificar de qual pais é o arquivo;
2.2 – CARREGANDO ARQUIVO (TXT)

2.3 – CARREGANDO ARQUIVO (EXCEL)


Para carregar arquivo excel usar a seguinte sintaxe:

pd.read_excel('nome_arquivo.xlsx', skiprows = 2, skipfooter = 16);

skiprows -> para informar onde começa os titulos da base;

skipfooter -> descarta as ultimas linhas.

Obs: Converter string em numero

1) base[‘nome coluna’] = base[‘nome coluna’].astype(int)


2) base[‘nome coluna’] = base[‘nome coluna’].str.replace(‘.’, ‘’).astype(int)
3) base[‘nome coluna’] = base[‘nome coluna’].astype(float)

3 – DESCREVENDO ARQUIVO

3.1 – EXIBINDO O NOME E OS TIPOS DAS COLUNAS

BASE.dtypes;
Dtypes – comando utilizado para exibir o nome e o tipo de cada uma das colunas.

3.2 – DESCREVENDO AS PRINICIPAIS CARACTERISTICA DOS DADOS

BASE.describe();
describe() – comando utilizado para descrever as principais caracteristicas dos dados.
3.3 – VERIFICANDO A QUANTIDADE DE DADOS POR COLUNA

BASE.info();
Info() – comando utilizado para verificar se há dados faltando em uma variavel.
3.4 – VERIFICANDO O TAMANHO DO ARQUIVO

BASE.shape;
shape – comando utilizado para verificar a quantidade de linhas e colunas.
4 – EXIBINDO AS PRIMEIRAS LINHAS DA BASE CARREGADA

BASE.head(5);
Head() – comando utilizado para exibir as primeiras linhas, entre parênteses
especificar a quantidade de linhas que se deseja exibir.

5 – EXIBINDO OS VALORES UNICOS

BASE[‘NOME COLUNA’].unique();
unique() – comando utilizado para exibir os valores unicos de uma variavel.

6 – CRIAR SUB CONJUNTOS

6.1 – ESPECIFICANDO AS COLUNAS


NOVA_BASE = BASE[['COD_BENEFIC', 'DAT_INTERNACAO_INTERN', 'DAT_ALTA_INTERN','VAL_ITEM_PAGO']]

Para criar sub conjuntos em um base, temos que colocar as colunas desejadas dessa
base entre chaves[] conforme sintaxe acima.

6.2 – FILTRANDO A BASE

a) BASE[BASE['COD_BENEFIC'] == 1000020] ou BASE[BASE.COD_BENEFIC == 1000020]


b) BASE[(BASE['COD_BENEFIC'] == 1000020) | (BASE['COD_BENEFIC'] == 1000021)] ou
BASE[(BASE.COD_BENEFIC == 1000020) | (BASE.COD_BENEFIC == 1000021)]

Para filtrar a base é necessário colocar a condição na variável conforme exemplos


acima.

Símbolos:
== atribuição

!= diferente

& simbo e

Filtrando com uma parte da palavra:

Sintaxe: base[base['coluna'].str.contais(‘parte da palavra’)]

Exemplo: hospital_base[hospital_base['PROCEDIMENTO'].str.contains('AMPUTA')]

8 – AGRUPANDO DADOS
1)BASE.groupby(['COD_BENEFIC', 'DAT_INTERNACAO_INTERN', 'DAT_ALTA_INTERN']).sum().sort_values('VAL_ITEM_PAGO',
ascending = False) ;
2)BASE[[“COL1”, “COL2”]].groupby([“COL1”]).sum();

3)BASE[[“COL1”, “COL2”, “COL3”]].groupby([“COL1” , “COL2”]).sum();

Para agrupar dados usar o comando groupby conforme sintaxe acima, nesse comando
usar expressão de agrupamento (sum, max, min, entre outros) mais a função sort_values para
especificar a variável de agrupamento.

9 – ORDENANDO DADOS

Em muitos casos há a necessidade de ordenar uma variável, para isso o python usa o
comando sort_values, conforme sintaxe abaixo.

df.sort_values(['col_A', ascending = False]).

Caso queria ordenar em nives usa a sintaxe a seguir.

df.sort_values(['col_A', 'col_B']).

10 – UNIFICANDO BASES DE DADOS

Para unificar bases de dados o python usa as funções merge, join, append ou concat. A
função concat unifica as bases sem precisar de uma coluna chave, abaixo a sintaxe:

A) Concat

Pd.concat([BASE_A, BASE_B], ignore_index=True);

B) Merge

A função merge é a mais indicada para ocasiões que necessitam de uma ou mais
chaves, abaixo alguns exemplos com a utilização de chaves.
Sintaxe:

pd.merge(base_A, base_B, on="coluna_coincidente", how="left|right|inner|outer);

pd.merge(base_A, base_B, on=["coluna_1","coluna_2"], how="left|right|inner|outer");

Obs: Caso as colunas chaves não possuírem o mesmo nome usar a sintaxe abaixo:

pd.merge(base_A, base_B, right_on=["coluna_direita_1","coluna_direita_2"],


left_on=["coluna_esquerda_1","coluna_esquerda_2"], how="left|right|inner|outer").

Obs: usar uma das notações (left|right|inner|outer) para unir as bases que se deseja.

C) Join
A função join também indicada para ocasiões que necessitam de uma ou mais chaves,
abaixo alguns exemplos com a utilização de chaves.
Sintaxe:

Base_A.join(Base_B, how="left|right|inner|outer” );

D) Append
A função append unifica duas ou mais bases desde que as bases tenham as mesmas
colunas.
Sintaxe:

Base_A.append(Base_B, ignore_index=True).

11 – TRABALHANDO COM STRING

Para fatiar uma variável do tipo string no python, usa-se a sintaxe


abaixo:
base_A['COL_NOVA'] = base_A['COL_NOME'].str[i:j];
onde i é o valor inicial da variável e j é o valor final.

12 – TRABALHANDO COM DATA

Para trabalhar com data usa-se a biblioteca Datetime.


Uma das coisas mais importantes na manipulação das datas é a separação
em mês, ano e dia ao qual abaixo temos uma sintaxe para separar esses
elementos.
Sintaxe:
df[ 'ANO'] = df[ 'date_given' ].dt.year;
df[ 'MES'] = df[ 'date_given' ].dt.month;
df[ 'DIA'] = df[ 'date_given' ].dt.day;

13 – CONDIÇÕES

12.1 – IF

12.2

14 – GRAFICOS

A biblioteca utilizada no python para se trabalhar com visualização de


dados é o matplotlib. Essa biblioteca é de suma importância para criação de
muitos tipos de gráficos como por exemplo: Linhas, Pizza, Histograma entre
outros.