Escolar Documentos
Profissional Documentos
Cultura Documentos
PyCaret
Classificação
Odemir Depieri Jr
Ronisson Lucas C. da Conceição
Yan Vianna Sym
SOBRE ESSE EBOOK
Esse ebook contem um tutorial sobre o uso do
PyCaret em problemas de classificação, ele é uma
solução pronta para negócios.
CONTEÚDO
PyCaret é uma biblioteca de aprendizado de máquina
de código aberto simples e fácil de usar. Ele ajuda
você desde o início da preparação dos dados até o
final da análise e implantação do modelo.
AUTORES
Odemir Depieri Jr
Ronisson Lucas Calmon da Conceição
Yan Vianna Sym
APOIO
Data Viking
INDICE
TUTORIAL
- Importação dos Frameworks 4
- Função SETUP 5
- Comparação Modelos 7
- Interpretação Modelo 8
- Otimização (Tuning) 9
- Métricas desempenho 10
CÓDIGO
- Link do script 11
# Instalar essas Libs
!pip install pycaret
!pip install shap
# Libs necessárias
import numpy as np
import pandas as pd
import seaborn as sns
# Funções de Classificação
from pycaret.classification import *
# Carregar os dados
Base_Dados = sns.load_dataset('iris')
# Verificando
Base_Dados.head()
# Features target
target = 'species',
Função ‘setup’
A etapa de configuração (setup) abrange uma ampla
gama de tarefas de pré-processamento, como:
5
Train Test Split:
o Divide automaticamente os dados em train e test
para modelagem. No caso de problemas de
classificação, utiliza divisões estratificadas.
o Por padrão, a taxa de divisão é de 70% de
treinamento e 30% de teste. No entanto, isso pode
ser alterado usando um parâmetro na configuração.
“train_size”.
o A avaliação de cada modelo de ML e a otimização de
hiperparâmetros são feitas usando a validação
cruzada K-Fold.
Criando os Modelos
Esta função compara cada modelo presente no PyCaret
dependendo da declaração do problema.
O treinamento de cada modelo é feito usando os
hiperparâmetros padrão e avalia as métricas de
desempenho usando a validação cruzada.
A saída da função é uma tabela que mostra a pontuação
média de todos os modelos.
A tabela é classificada (do maior para o menor) pela
métrica escolhida e pode ser definida usando o
parâmetro de classificação . Por padrão, a tabela é
classificada por Precisão para experimentos de
classificação e R2 para experimentos de regressão.
Certos modelos são impedidos de comparação devido ao
seu tempo de execução mais longo. Para contornar essa
prevenção, o parâmetro turbo pode ser definido como
Falso .
7
Random_Forest = create_model('rf')
Interpretar Modelo
Depois de comparar diversos modelos podemos escolher
algum algoritmo especifico para podemos comparar e
avaliar as métricas de performance.
Nesse exemplo escolhei o ‘Random Forest Classifier’,
para selecionar o modelo é preciso passar a sigla da
tabela anterior (1º coluna) como parâmetro na função.
Nessa tabela ele utiliza a tabela cruzada (k-fold) e
mostra diversas métricas como:
- Accuracy;
- Recall;
- Precision;
- Outros.
8
Tuned_Random_Forest = tune_model( Random_Forest )
Métricas de Desempenho
Esta função analisa o desempenho de um modelo
treinado no conjunto de validação.
Existem diversas métricas para serem analisadas, na
tabela abaixo consta as de classificação.
https://pycaret.gitbook.io/docs/get-started/functions/analyze#plot_model
9
Link do código
Para pegar o código entre no link ou escaneei o qrcode.
https://colab.research.google.com/drive/1fv1CjVlDXSEbvPf0cvC
FxjpayLKJf0n0?usp=sharing
10