Você está na página 1de 61

Machine Learning com SAS e suas evoluções

• SAS RESOURCES

Cadastre-se na Comunidade SAS Brasil Assista nossos webinars gravados em português

Clique aqui Clique aqui

Tenha todos os nossos recursos em


uma só página Ensine e aprenda SAS gratuitamente*
Clique aqui
Clique aqui
Clique aqui
PREMIAÇÕES DE HOJE!

Desafio SAS – Pergunta Comunidade

Kits Mochila + Caneca personalizada SAS

Questionário
Kit Churrasco + Caneca de chopp
Kit
CURSO OFICIAL SAS
Applied Analytics Using SAS® Enterprise
Miner™

✓ Curso Oficial SAS com certificação; on line com instrutor;


✓ Turma noturna exclusiva para os participantes do Webinar;
✓ Data : 25/04 a 29/04/2022 – 05 noites;
✓ Horário: 18:30h às 22:30h;
✓ Treinamento Oficial com desconto de 70% do valor praticado;
✓ Forma de Pagamento: até 6 vezes no cartão sem juros;
✓ Vocês receberão uma badge para publicar nas mídias sociais.

https://www.saseducationbrasil.com.br/sas-miner-turma-exclusiva-webinar
Equipe SAS Customer Success

Camila Reis Felipe Romano Vitoria Saprudsky Priscilla Kusniaruk


Head CS Latam CSM Brasil CSM Brasil Estagiária

camila.reis@sas.com felipe.romano@sas.com vitoria.Saprudsky@sas.com priscilla.Kusniaruk@sas.com

+55 11 98789-1982 +55 11 97195-3271 +55 11 99429-8865 + 55 11 97429-2832

Camila Reis Felipe Romano Vitoria Saprudsky Priscilla Kusniaruk


Machine learning com SAS e suas evoluções
Webinar

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


Webinar:
Machine learning com SAS e
suas evoluções

• Larissa Lima

• Customer Advisor
• Email: larissa.lima@sas.com Linkedin

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


Agenda

Machine Learing e os métodos mais utilizados

A importância do Ciclo Analítico

Técnicas e Algoritmos

Desenvolvendo um projeto

Evoluções na plataforma SAS

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


➢ Machine Learning

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


4 Tipos de SUPERVISIONADO

Machine
Learning SEMI-
SUPERVISIONADO
NÃO SUPERVISIONADO

REFORÇADO

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


Aprendizagem Supervisionada

Ensinar pelo exemplo.

Semelhante a fornecer uma


chave de resposta e pedir ao
aluno (máquina) para “mostrar
seu trabalho”.

As máquinas usam exemplos


rotulados para determinar a
lógica ou algoritmo apropriado.

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


Aprendizagem Supervisionada: Técnicas Comuns

Bayesian Statistics
GESTÃO DE RISCO
Decision Trees

DEFINIÇÃO DE CAMPANHAS Forecasting

ANÁLISE DE CHURN
Neural Networks

Random Forests
DETECÇÃO DE FRAUDE

Regression Analysis
ANÁLISE DE ADIMPLÊNCIA
Support Vector Machines [SVM]

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


Aprendizagem Semi-Supervisionada

Semelhante ao aprendizado
supervisionado.

Perguntas e respostas são


fornecidas apenas para um
subconjunto dos dados.

Usada quando há muitos dados


ou variações sutis nos dados
para permitir um conjunto
abrangente de exemplos.

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


Aprendizagem Semi-Supervisionada: Técnicas Comuns

RECONHECIMENTO DE FALA Self Training

CLASSIFICAÇÃO DA Multi-view Co-training


PÁGINA WEB

Generative methods
CLASSIFICAÇÃO DE RECONHECIMENTO
DE IMAGENS
Transdutivo SVM

Graph-based methods

https://blogs.sas.com/content/sasla/2020/09/15/o-aprendizado-semissupervisionado-e-para-o-seu-tipo-de-problema/
Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.
Aprendizagem Não Supervisionada
Nenhuma chave de resposta é fornecida.

A máquina usa exemplos que não possuem


rótulos de classificações para que se aprenda
um padrão.
A rede tem de descobrir sozinha relações,
padrões, regularidades ou categorias nos
dados que lhe vão sendo apresentados e
codificá-las nas saídas.
As inferências e conclusões são baseadas
apenas na análise de dados de entrada.

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


Aprendizagem Não Supervisionada: Técnicas Comuns

DETECÇÃO DE
INTRUSÃO/ ANOMALIA
Affinity Analysis

Clustering
IDENTIFICANDO COISAS Clustering: K-Means

Nearest-Neighbor Mapping
ANÁLISE DA CESTA Self-Organizing Maps
DE MERCADO

Singular Value Decomposition

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


Aprendizagem por Reforço

É semelhante a ensinar alguém a


jogar um jogo.

As regras do jogo são fornecidas:


ações permitidas, regras e estados
finais potenciais.

A máquina realiza ações diferentes


e observa os resultados para
aprender como obter um resultado
ótimo ou otimizado.

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


Aprendizagem por Reforço: Técnicas Comuns

ROBÓTICA Artificial Neural Networks (ANN)

Learning Automata
NAVEGAÇÃO
Markov Decision Process (MDP)

Q-Learning
GAMING

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


Ciclo de Vida do Modelo - Análise Avançada

Descoberta e Implantação e Implantação


Desenvolvimento execução de e execução
de Analytics análises de análises

ANALYTICS IT BUSINESS

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


Ciclo Analítico
End-to-End

Entender o Coletar Dados Explorar/Visualizar Amostrar/Preparar dados


Problema de
Negócio

Feature Feature Machine Learning Validação/ Deploy


Engineering Extraction/Selection Monitoramento

Copy rig ht © SA S Institute Inc. A ll rig hts re se rve d.


TÉCNICAS E ALGORITMOS
SAS Enterprise Miner

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


SAS Enterprise Miner
Metodologia SEMMA

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


SAS Enterprise Miner
Metodologia SEMMA

S ample E
xplore M odify M odel A
ssess

Utility Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


NODES – Sample
SAS Enterprise Miner

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


Sample
Import
Você usa o nó Importação de Arquivo para converter arquivos simples externos
selecionados, planilhas e tabelas de banco de dados em um formato que o
Enterprise Miner reconhece como uma fonte de dados e pode usar em diagramas
de fluxo de processo de mineração de dados.

Os arquivos que podem ser


importados são: dBASE 5.0, Stata,
Excel, SAS JMP files, Paradox .DB
files, SPSS, Lotus, Tab-Delimited
values (txt), Comma-Separated
values (csv), Delimited values
(user defined).
Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.
Sample
Modificando o dado
Você usa o nó Append para anexar conjuntos de dados que são exportados
por dois caminhos diferentes em um único diagrama de fluxo de processo. O
nó Append também pode anexar conjuntos de dados de treinamento,
validação e teste em um novo conjunto de dados de treinamento.

Use o nó Partição de Dados para particionar seus em Treino, Validação e


Teste. O particionamento fornece conjuntos de dados mutuamente
exclusivos. Na aba de configuração altere o método de particionamento para
Stratified, em seguida, em Variables, altere a variável “BAD” para a role de
Stratification. Determine o tamanho de cada partição em Data Set
Allocations.

Use nó Mesclar para mesclar observações de dois ou mais conjuntos de


dados em uma única observação em um novo conjunto de dados. Conjuntos
de dados dos tipos Train, Validate, Test e Score podem ser mesclados.

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


Sample
Filter

Use o nó Filter para criar e aplicar filtros ao


seu conjunto de dados. Você pode usar
filtros para excluir determinadas
observações, como valores discrepantes
extremos e dados errôneos que não deseja
incluir em sua análise de mineração. Para
variáveis categóricas, por exemplo, o
método default de filtro é Valores raros, e
para variáveis intervalares o método
default é a quantidade de desvios padrões
acima da média. É possível alterar esses
métodos.

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


NODES – Explore
SAS Enterprise Miner

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


Explore
Stat Explore
O nó StatExplore é uma ferramenta multifuncional que você usa para examinar
distribuições de variáveis e estatísticas em seus conjuntos de dados. O nó
StatExplore gera estatísticas de sumarização.
Você pode usar o nó StatExplore para:
• Selecione variáveis para análise, para
clusters de perfil e para modelos
preditivos.
• Calcular estatísticas de distribuição
univariada padrão.
• Calcular estatísticas bivariadas
padrão por alvo de classe e segmento
de classe.
• Calcular estatísticas de correlação
para variáveis de input e target
Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.
Explore
Graph Explore
O nó Graph Explore é uma ferramenta de visualização avançada que permite explorar
grandes volumes de dados graficamente para descobrir padrões e tendências e revelar
valores extremos no banco de dados

Você pode escolher uma das


seguintes opções de visualização:
• Scatter • Constellation
• Line • 3–D Charts
• Histogram • Contour
• Density • Bar
• Boxplot • Pie
• Tables • Needle
• Matrix • Vector
• Lattice • Band
Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved. • Parallel Axis
Explore
Clustering
Análise de cluster é um algoritmo de aprendizagem não supervisionada que procura
descobrir padrões intrínsecos que estão por trás dos dados. Este node agrupa um
conjunto de observações em grupos (ou clusters) de acordo com suas similaridades.

O Clustering Node é frequentemente


utilizado para segmentar um grande
conjunto de dados em vários grupos.
O nó permite a escolha do método
de agrupamento entre as 3 opções:
Average, Centroid, Ward.

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


Explore
Variable Selection
Este Node identifica as variáveis input que são úteis para prever a variável target e
rejeita as demais variáveis utlizando alguns métodos de seleção.

A ideia é que as "melhores"


entradas, ou seja, mais ricas em
informações, possam ser
avaliadas em mais detalhes por
um dos nós de modelagem.

Para pré-selecionar as variáveis


de entrada importantes, o nó
Seleção de Variável usa um
critério de seleção Rsquare ou
Qui-quadrado.
Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.
NODES – Modify
SAS Enterprise Miner

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


Modify
Impute
Usar o Node Impute para substituir valores missings em base de dados para melhorar a
qualidade dos dados e a acurácia dos modelos.

Se uma observação contiver um valor


missing, então, por padrão, essa
observação não é utilizada para
modelagem como Rede Neural ou
Regressão. No entanto, rejeitar todas as
observações incompletas pode ignorar
informações importantes. Rejeitar todas
as observações missing também pode
enviesar a amostra, uma vez que as
observações com valores missing podem
ter outras coisas em comum também.
Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.
Modify
Interactive Grouping

O nó Interactive Binning é uma ferramenta de agrupamento usada para criar intervalos de


valores para variáveis contínuas. A ferramenta interativa calcula bins iniciais por quantis.
Em seguida, é possível dividir e combinar interativamente os compartimentos iniciais.

Categorizar variáveis oferece


diversas vantagens:

• Ajuda a lidar com outliers;


• Útil para entender correlações;
• Permite modelar “não
linearidades” com modelos
lineares;
Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.
Modify
Transform Variables
Este Node permite fazer transformações, substituindo uma variável input por uma
função dessa variável. Essas funções matemáticas determinísticas podem ser usadas
para estabilizar variâncias, remover a não linearidade e corrigir a não normalidade em
variáveis para melhorar o ajuste do modelo.

Para as variáveis intervalares, o Node


permite transformações como log, raiz
quadrada, inversa, quadrado, exponencial
e normalização, além da transformação
de Box Cox que busca a melhor
transformação. Para categoricas é
possível criar dummies, agrupar valores
raros, entre outras funções.
Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.
NODES – Model
SAS Enterprise Miner

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


Model + High Performance Data Mining

Dados com Treino/Ajuste Modelo


+ técnica
resposta ajustado

Dados sem Modelo Scoragem Resposta


+ predita
resposta ajustado

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


Model
Decision Tree
Uma árvore empírica representa uma segmentação dos dados que é criada aplicando
uma série de regras simples (if-then-else) de tal maneira agrupar observações com um
conjunto de características em comum e que pertençam majoritariamente a um nível.

As árvores de decisão produzem um


conjunto de regras que podem ser
usadas para gerar previsões para um
novo conjunto de dados. Essas
informações podem então ser usadas
para orientar decisões de negócios.

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


HPDM
HP Forest
Este Node cria um modelo preditivo denominado (Random) Forest. Uma floresta
consiste em várias árvores de decisão independente uma das outras que diferem entre
si de duas maneiras:

• Os dados de treinamento para


uma árvore são uma amostra com
reposição de todas as observações
disponíveis (in-bag).
• As variáveis de input são
selecionadas aleatoriamente de
todas as inputs disponíveis.

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


Model
Regression
Este Node é usado para tentar prever o valor de uma variável resposta intervalar ou binária
(modelo logístico). Uma análise de regressão linear/logística é criada, onde a relação do valor
de y (target) pode ser interpretado em função dos coeficientes ajustados e das variáveis
explicativas.

Você pode definir:

• Métodos de seleção: Backward,


Forward, Stepwise, LASSO, Adaptive LASSO
• Critérios de Seleção, Parada e
Convergência
• Nível de significância

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


Model
Neural Network
Uma Rede Neural é um modelo estatístico projetado para imitar as estruturas biológicas
do cérebro humano e consiste de neurônios e suas conexões. As unidades são
organizadas em camadas:
• Input Layer: contem as variáveis de entrada.
• Hidden Layer: responsáveis realizar os cálculos internos e fornecer a não linearidade
• Output Layer: pode ter uma ou mais saídas e calculam os valores previstos

Utiliza por default a


arquitetura de rede MLP
(multi layer perceptron),
porém, a partir da
alteração das
configurações da rede
pode gerar outras
arquiteturas.
Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.
NODES – Assess
SAS Enterprise Miner

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


Assess
Cutoff

O nó de Cutoff fornece informações tabulares e gráficas para ajudar os usuários a


determinar o(s) ponto(s) de corte de probabilidade apropriado(s) para tomada de
decisão com modelos binários de destino.

O estabelecimento de um ponto
de decisão de corte acarreta o
risco de gerar falsos positivos e
falsos negativos, mas o uso
adequado do nó Cutoff pode
ajudar a minimizar esses riscos.

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


Assess
Model Comparision

O nó Model Comparision permite comparar o desempenho de modelos


concorrentes usando vários critérios de benchmarking. Existem muitos critérios
que podem ser usados para comparar modelos. A comparação do desempenho do
modelo depende da aplicação específica do modelo.

• Medidas de Classificação: Gráficos


Receiver Operating Characteristic
(ROC) e a AUC, taxas de classificação
• Medidas de mineração de dados:
Lift, Loss and profit
• Medidas Estatísticas: BIC, AIC,
Gini, Kolmogorov-Smirnov, entre
Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.
outros.
Assess
Score Code
O Nó permite importar o código de scoragem de um modelo existente criado no
projeto. Você pode pontuar um conjunto de dados para gerar valores previstos que
podem não contém a marcação.Esse nó apenas Scora as observações apresentando
suas previsões, e não treina novos modelos.

O código de score SAS fica salvo em


um local em seu computador cliente
e necessita estar ligado ao nó do
modelo escolhido e à um Data
Source configurado como rule de
Score.

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


NODES – Utilities
SAS Enterprise Miner

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


Utilities
SAS Code
Este Node permite incorporar um código SAS novo ou existente ao Diagrama e você
pode separar código de treinamento do código de escoragem.

O nó SAS Code também é útil para


construir modelos preditivos,
formatar SAS output, definir
tabelas e gráficos na interface do
usuário e para modificar
metadados variáveis.

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


Utilities
Save Data

O Node de Save Data é responsável por salvar na biblioteca escolhida os


resultados do output do nó anterior. Seja uma transformação,
exploração, ou resultados de um modelo.

O usuário indica o caminho de


destino do output dos dados.

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


DESENVOLVENDO UM PROJETO
Análise de Crédito

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


Base de Dados
Home Equity dataset (HMEQ)

Banco de Dados: Contém informações sobre o histórico de


adimplência de clientes que solicitaram empréstimo com o imóvel
como garantia.

Variável Resposta/Target:
1: Cliente inadimplente;
0: Cliente adimplente.

Objetivo:
Prever o comportamento do cliente e determinar as características
que diferenciam um cliente inadimplente de um adimplente.

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


Base de Dados
Home Equity dataset (HMEQ)
Variável Label Descrição
BAD Client defaulted on loan Cliente inadimplente no empréstimo (1=Inadimplente)
LOAN Amount of the loan request Quantia do pedido de empréstimo
MORTDUE Amount due on existing mortgage Valor devido na hipoteca existente
VALUE Value of current property Valor da propriedade atual
DebtCon - Debt consolidation and Razão do pedido de empréstimo -> DebtCon -
REASON
HomeImp = home improvement Consolidação de dívidas e HomeImp = Reforma da casa
JOB Occupation Ocupação
YOJ Years at present job Anos no trabalho atual
DEROG Number of major derogatory reports Número de relatórios depreciativos principais
DELINQ Number of delinquent credit lines Número de linhas de crédito inadimplentes
CLAGE Age of oldest trade line in months Idade da linha comercial mais antiga em meses
NINQ Number of recent credit lines Número de linhas de crédito recentes
CLNO Number of credit lines Número de linhas de crédito
DEBTINC Debt-to-income ratio Razão Dívida/Rendimento

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


DEMONSTRAÇÃO
Análise de Crédito

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


Evolução da Plataforma SAS
SAS Viya

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


New
Analytics com SAS
Interpretabilidade dos modelos

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


Automated Machine
Learning

• Automação de tarefas repetitivas


do processo de modelagem.

• Objetivo: automatizar o número


máximo de etapas no ciclo
analítico sem comprometer o
desempenho do modelo.

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


New
Ciclo Analítico
End-to-end

Entender o Coletar Dados Explorar/Visualizar Amostrar/Preparar dados


Problema de
Negócio

Auto ML

Feature Feature Machine Learning Validação/ Deploy


Engineering Extraction/Selection Monitoramento

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


New SAS Viya
SAS Visual Data Mining and Machine Learning
Templates

Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.


New
VDMML
Templates - Exemplos

Básico Intermediário Avançado

Clique aqui para saber mais sobre essa ferramenta.


Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.
Referências

Enterprise Miner
https://go.documentation.sas.com/doc/en/emgsj/15.2/n05xg9ih8j
bdi7n145p6s3ruf9fq.htm

Visual Data Mining and Machine Learning


https://www.sas.com/en_us/software/visual-data-mining-
machine-learning.html

Obrigada!
Larissa Lima – Customer Advisor
larissa.lima@sas.com
Copyr i ght © SAS I nsti tute I nc . Al l r i ghts reser ved.

Você também pode gostar