Parte 5-Backpropagation Modelagem

Back Propagation
Modelagem da Rede Neural

• Fatores importantes para a modelagem da

Rede Neural:
 Seleção de variáveis;
 Limpeza dos dados;
 Representação das variáveis de entrada e saída;
 Buscando melhor Generalização
 early stopping (parada antecipada)
 validação cruzada
• Seleção de Variáveis:
– diminui o tamanho da rede
– acelera o aprendizado
– melhora a generalização da Rede

– combinação de variáveis (atributos):
• razão, produto, soma ou diferença de 2 valores
– diversos métodos:
• correlação; PCA (Principal Component Analysis);
Least Squares Estimator (LSE); etc
• Limpeza de Dados:
– as transações podem conter valores
incorretos, dados ausentes e inconsistências

– conhecimento sobre os limites dos dados;
– visualização para identificar “outliers”;
– uso de informação estatística para
estabelecer como neutros os valores
ausentes ou incorretos.

Rede Neural:
• Representação dos Dados:
• Contínuos  Escalonamento básico
• Discretos  Deve ser transformado em uma

representação que apresente um
único conjunto de entradas para
cada valor discreto
1 of N; binário; termômetro
Representação - Contínuos
• Normalização
– escalonamento
• as redes geralmente aceitam valores entre 0/(-1) e 1
• linear ⇒ se os dados estão uniformemente distribuídos
• não-linear ⇒ logarítmico, etc
– normalização de vetores
xi − mín
• divide pela faixa máxima de valores x =
n
Máx − mín
i
– menos processamento
• subtrai do valor médio e divide pelo desvio padrão
– (sinal com média zero e variância unitária)
xi − x
x =
n
σ
i
• Escalonamento linear, se os valores estão
uniformemente distribuídos na faixa de dados
Ex1: variável salário [880,00, 20000,00] (R$)

80% dos valores estão abaixo de 5000,00

linear por partes: 880 a 5000 => 0 a 0.8
5000 a 20000 => 0.8 a 1.0
• Escalonamento linear, se os valores estão
uniformemente distribuídos na faixa de dados
Ex2: salários de 880,00 a 50.000,00 mas só

precisa diferenciar valores até 25.000,00

linear por partes: 880 a 25.000 => 0 a 1.0
(também linear por partes)
25.000 a 50.000 => 1.0

Representação - Categóricos
• 1 of N
– # de entradas = # de categorias
– mais simples e mais fácil para a Rede Neural
– pode gerar muitas entradas
 piora a generalização
Exemplo de 4 classes:
casado ⇒ 1000
solteiro ⇒ 0100
divorciado ⇒ 0010
viúvo ⇒ 0001
• código binário
– N categorias representado por n bits (N=2n)
– valores próximos podem ter distância de
hamming grande na representação
Exemplos:
– 36 sintomas diferente ⇒ 6 entradas (26 = 64)
– 12 meses do ano ⇒ 4 bits de entrada (24 = 16)

• termômetro
– quando os dados estão relacionados de forma
crescente ou decrescente
– Exemplo - 4 classes de salários:

baixo ⇒ 1000
bom ⇒ 1100
muito bom ⇒ 1110
excelente ⇒ 1111

Rede Neural:
GENERALIZAÇÃO
• Qual o melhor critério de parada do treinamento?
– Erro de treinamento máximo especificado
– Número máximo de ciclos (“epochs”)
GENERALIZAÇÃO
• Qual o melhor critério de parada do treinamento?
– Erro de treinamento máximo especificado
– Número máximo de ciclos (“epochs”)
– Ambas podem causar super treinamento (overfitting)

GENERALIZAÇÃO
MLP para modelar a função SENO: MLP para modelar a função SENO:
Super treinada – aprende a modelar o sem super treinamento
ruído existente nos dados
Ivan Nunes da Silva, D. H. Spatti, R. A. Flauzino, Redes Neurais Artificiais para

Engenharia e Ciências Aplicadas: Curso Prático, Artliber Editora, 2010.
GENERALIZAÇÃO
Precisão de
generalização
Número ideal de
ciclos de treinamento
9900 ciclos
GENERALIZAÇÃO
 Super treinamento (“overfitting”):

– os pesos estão sendo modificados para ajustar
também o ruído existente nos padrões de
treinamento;
– quanto maior o número de pesos, maior o problema
de overfitting;
– Deve-se verificar o comportamento na generalização
 necessita de um conjunto de validação!
GENERALIZAÇÃO
• Como evitar o super treinamento?
– Separa-se um conjunto de padrões (não utilizados na
atualização dos pesos), denominado conjunto de
validação, para verificar o ponto a partir do qual ocorre o
super treinamento.
Early Stopping (Parada Antecipada)

GENERALIZAÇÃO
• Early Stopping:
• Deve-se dividir os padrões em três conjuntos:
– treinamento (estimação)  padrões usados
para modificar os pesos;
– validação  padrões usados para verificar o
problema de overfitting;
• deve-se guardar a configuração de pesos que
obteve, até o momento, o melhor desempenho no
conjunto de validação.
– teste  padrões para testar o desempenho
do modelo final.
GENERALIZAÇÃO
Precisão de
generalização
GENERALIZAÇÃO
• Early Stopping:
• Conclusão 
– O treinamento só deve ser interrompido
quando o erro dos padrões do conjunto
de validação começar a subir de forma
consistente.

Rede Neural:
GENERALIZAÇÃO
• Validação Cruzada:
• Como garantir que o conjunto de treinamento
escolhido é o mais adequado para fornecer o
melhor desempenho na generalização?
Validação Cruzada
GENERALIZAÇÃO
• Validação Cruzada:
• k configurações diferentes de treinamento e
validação devem ser geradas (aleatoriamente),
ficando fixo, geralmente, apenas o conjunto de
teste.
• Escolhe-se a rede treinada com o conjunto de
treinamento que forneceu o melhor desempenho
no conjunto de validação.
• A variância no desempenho fornece informação
sobre a sensibilidade da rede ao conjunto de
treinamento apresentado.
• Conjunto de teste também é denominado holdout
GENERALIZAÇÃO
• Dois tipos de Validação Cruzada:
– Random Subsampling Cross-validation

GENERALIZAÇÃO
• Dois tipos de Validação Cruzada:
– K-fold cross validation

GENERALIZAÇÃO
• Conjunto de Validação:
• Também é usado para determinar o número
adequado de processadores na(s) camada(s)
intermediárias.
– Da mesma forma, divide-se o conjunto de padrões em

três subconjuntos: estimação, validação e teste.
– Treina-se diferentes arquiteturas com os padrões do

conjunto de estimação e escolhe-se aquela que
apresentar o menor erro no conjunto de validação.
GENERALIZAÇÃO
• Seleção dos conjuntos de treinamento e teste:
Exemplo 1: deseja-se efetuar a análise de

crédito bancário em Belo Horizonte a partir de
dados históricos do Rio de Janeiro e São Paulo.
Melhor indicação do
desempenho futuro a
ser obtido em BH
Treinamento: Rio de Janeiro
+ Treinamento1: Rio de Janeiro
Conjuntos São Paulo Validação1: São Paulo
dijuntos
Validação: Rio de Janeiro Treinamento2: São Paulo

+ Validação2: Rio de Janeiro
São Paulo

Parte 5-Backpropagation Modelagem

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Parte 5-Backpropagation Modelagem

Enviado por

Direitos autorais:

Formatos disponíveis

Back Propagation

Modelagem da Rede Neural

• Fatores importantes para a modelagem da

• Fatores importantes para a modelagem da

• Contínuos  Escalonamento básico

• Discretos  Deve ser transformado em uma

Ex1: variável salário [880,00, 20000,00] (R$)

Ex2: salários de 880,00 a 50.000,00 mas só

25.000 a 50.000 => 1.0

– 36 sintomas diferente ⇒ 6 entradas (26 = 64)

– 12 meses do ano ⇒ 4 bits de entrada (24 = 16)

– Exemplo - 4 classes de salários:

• Fatores importantes para a modelagem da

– Ambas podem causar super treinamento (overfitting)

Ivan Nunes da Silva, D. H. Spatti, R. A. Flauzino, Redes Neurais Artificiais para

 Super treinamento (“overfitting”):

Early Stopping (Parada Antecipada)

• Fatores importantes para a modelagem da

Ivan Nunes da Silva, D. H. Spatti, R. A. Flauzino, Redes Neurais Artificiais para

Ivan Nunes da Silva, D. H. Spatti, R. A. Flauzino, Redes Neurais Artificiais para

– Da mesma forma, divide-se o conjunto de padrões em

– Treina-se diferentes arquiteturas com os padrões do

Exemplo 1: deseja-se efetuar a análise de

Validação: Rio de Janeiro Treinamento2: São Paulo

Você também pode gostar