Escolar Documentos
Profissional Documentos
Cultura Documentos
Tarefa
Experincia de treinamento ou conjunto de dados
Medida de desempenho.
2)
3)
Componentes do aprendizado
No supervisionado
Por reforo
Realiza classificao de padres com apenas duas classes (hipteses). Entretanto, essas classes devem ser
linearmente separveis para o perceptron funcionar: superfcie de deciso tem a forma de um hiperplano
entre as duas classes.
9. Explique o que so situaes de underfitting e overfitting, descrevendo- se tambm os meios para
as suas deteces e as tcnicas utilizadas para o seu contorno.
Underfitting quando a funo implementada pela rede no tem complexidade suficiente para resolver o
problema. Pode ocorrer, por exemplo:
O problema de underfitting pode ser resolvido com um conjunto de treinamento de bom tamanho.
Tcnicas de amostragem ajudam.
Overfitting quando a funo implementada pela rede tem complexidade demais para o problema, sendo
capaz de modelar detalhes demais dos dados de treinamento, no generalizando bem. Pode ocorrer, por
exemplo:
Dizemos que h overfitting aos exemplos de treinamento se h alguma outra hiptese que representa com
menor qualidade (maior erro) os dados de treinamento, mas que apresenta melhor desempenho (menor
erro) sobre instncias nunca vistas.
Ambas situaes podem ser detectadas atravs do resultado do algoritmo utilizando os dados de
validao.
Tcnicas utilizadas para o contorno (no contexto de RNA):
A rede ter uma quantidade suficiente de neurnios, de forma que consiga mapear corretamente a
representao do ambiente.
Treinar por tempo suficiente, se for em pouco tempo pode acontecer o underfitting e utilizando
tempo demais pode acontecer o overfitting.
Parar o treinamento quando ver que o erro de validao est aumentando;
Reduzir o nmero de parmetros ajustveis, porm caso seja poucos parmetros ter um
underfitting e se tiver parmetros de mais pode ter uma overfitting;
Utilizar alguma forma de regularizao na funo de erro para que suavizar a alteraes dos
pesos
Diferenas
RBF (na forma natural) tem uma camada escondida. MLP pode ter vrias;
RBF geralmente totalmente conectada. MLP parcialmente conectada;
Na MLP os ns em diferentes camadas compartilham um modelo neural comum, embora nem
sempre a mesma funo de ativao. Na RBF os neurnios escondidos tm um propsito
diferente dos neurnios da camada de sada;
Na MLP o argumento da funo de ativao o produto interno entre a entrada e os pesos. Na
RBF a distncia euclidiana entre a entrada e os centros;
A MLP constri aproximaes globais. A RBF constri aproximaes locais com as funes
gaussianas;
Na MLP as camadas escondida e de sada so geralmente no lineares. Na RBF a camada
escondida no linear e a camada de sada linear.
Simulated Aneealing: So criadas novas solues aleatoriamente prximas as solues atuais; S aceita a
nova soluo se for melhor que a anterior ou a partir de uma probabilidade dividida por uma temperatura
que vai diminuindo a cada iterao; Exigem menos recursos computacionais; Garante a convergncia,
mas pode ser muito lenta (precisa decrementar a temperatura lentamente);
Busca Tabu: So criadas novas solues aleatoriamente prximas as solues atuais; Quando gerado um
conjunto de solues, vai aceitar a melhor soluo do conjunto, independentemente de ser melhor ou no
que a anterior; Precisa de menos iteraes para convergir; O fato de a nova soluo ser sempre aceita
como soluo atual, impede que o algoritmo se prenda em mnimos locais.
AG: so criadas novas solues com base em combinao e transformao das solues atuais; Guarda
sempre as melhores solues para as prximas geraes; Pode cair facilmente em mnimos locais;
16. Qual o princpio por trs da navalha de Occam?
Preferir a hiptese mais simples que representa os dados. A ideia que existem menos hipteses curtas
que longas, pois obviamente pode-se combinar operaes para formular hipteses mais complexas. O ID3
prefere rvores mais curtas.
Observamos, no dia a dia, que preferimos hipteses mais simples, ou curtas, que as mais complexas para
resolver diversos problemas.
Acredita-se que hipteses complexas geradas para conjuntos de treinamento podem falhar para
generalizar dados nunca vistos. Outra maneira de visualizar advm de Teoria da Informao, em que
mensagens mais curtas consomem menos recursos para serem transmitidas.
17. No contexto dos algoritmos genticos, como o processo de busca para chegar a soluo de um
problema realizada?
Atravs da seleo, onde os melhores cromossomos so selecionados para produzir novos filhos, atravs
de crossover e mutao, de forma que o AG dirigido para as melhores regies do espao de busca. Em
resumo, a busca realizada pelos os operadores de crossover e mutao.
18. No contexto de sistemas difusos, quais so as etapas de raciocnio envolvidas na soluo de um
dado problema?
Processo de Fuzzificao: Etapa na qual as variveis lingusticas so definidas de forma subjetiva, bem
como as funes membro; Determinao dos valores de pertinncia das variveis de entrada
Processo de Inferncia: etapa na qual as proposies (regras) so definidas e depois examinadas
paralelamente; Transformao dos conjuntos difusos de cada varivel de sada em um nico. Realiza a
interpretao das regras da base de conhecimento.
Processo de defuzzificao: Etapa na qual as regies resultantes so convertidas em valores para a
varivel de sada do sistema; Produz um valor crisp a partir de um conjunto difuso
19. No contexto de redes neurais artificiais, quais so as etapas de treinamento de uma rede MLP
utilizando o algoritmo de treinamento Backpropagation?
Na primeira etapa os pesos da rede so fixos e ponderam as entradas de cada camada propagando para
frente, resultando na sada da rede; A segunda etapa, conhecida como passo para trs, consiste em ajustar
os pesos de acordo com a regra de correo de erro, o sinal do erro da rede propagado para trs atravs
da rede;
Primeiro, um padro apresentado camada de entrada da rede. A atividade resultante flui atravs da
rede, camada por camada, at que a resposta seja produzida pela camada de sada. No segundo passo, a
sada obtida comparada sada desejada para esse padro particular. Se esta no estiver correta, o erro
calculado. O erro propagado a partir da camada de sada at a camada de entrada, e os pesos das
conexes das unidades das camadas internas vo sendo modificados conforme o erro retropropagado.
21. O grafo abaixo mostra a ligao entre 5 cidades e as respectivas distncias em quilmetros:
Tem-se um problema onde necessrio passar por todas as cidades, apenas uma vez. O objetivo
encontrar uma rota de menor custo usando um algoritmo gentico.
a) Proponha uma maneira de codificar os cromossomos.
Em cada posio dos cromossomos (solues candidatas) estar o nmero referente a cada cidade, sendo
assim o cromossomo uma sequncia de cidades;
b) Defina uma funo de aptido para avaliar a qualidade dos cromossomos.
Distncia do percurso (sequncia de cidades).
c) Gere dois cromossomos e avalie a aptido deles.
Cromossomo 1: [1 4 2 5 3]. Aptido= 3+3+8+3+9= 26;
Cromossomo 2: [1 3 2 4 5]. Aptido= 9+4+3+3+6= 25;
d) Realize o cruzamento entre os cromossomos.
Considerando um ponto de corte na casa 3:
Cromossomo novo 1 vai ser [1 4 2 4 5]
Cromossomo novo 2 vai ser [1 3 2 5 3]
e) Aplique uma mutao em um gene dos cromossomos.
Cromossomo novo 1 vai ficar [1 4 2 3 5]
Cromossomo novo 2 vai ficar [1 3 2 5 4]
posterior e funo de ativao da unidade anterior. Por esta razo, importante evitar escolhas de pesos
iniciais que tornem as funes de ativao ou suas derivadas iguais a zero. Os valores para os pesos
iniciais no devem ser muito grandes, tal que as derivadas das funes de ativao tenham valores muito
pequenos (regio de saturao). Por outro lado, se os pesos iniciais so muito pequenos, a soma pode cair
perto de zero, onde o aprendizado muito lento.
No se deve inicializar todos os pesos em zero pois no h mapeamento inicial restringindo a busca
vizinhana da origem.
25. Explique quais seriam as eventuais implicaes em se assumir a mesma varincia para todas as
funes de ativao dos neurnios que compem a camada intermediria da rede RBF.
26. Considerando novamente o problema do ou-exclusivo {porta Xor}, discorra sobre a quantidade
mnima de neurnios que seriam necessrios na camada intermediria da RBF visando a soluo do
problema.
Com apenas 2 neurnios pode fazer o mapeamento para o espao escondido de forma que o problema
possa ser separado linearmente.
27. Para problemas de classificao de padres, quais seriam as eventuais vantagens e limitaes da
rede RBF frente ao PMC.
Precisam de pelo o menos 10x mais dados para atingir a acurcia das MLP;
Com uma quantidade correta de dados e de nmeros de neurnios escondidos, possvel ter
melhor resultado de classificao e menos falsos positivos que a MLP;
O tempo de treinamento menor, pelo o fato de apenas uma parcela dos neurnios escondidos
respondem a determinados padres, enquanto a MLP tem todos os seus neurnios avaliados e
seus pesos ajustados para cada vetor;
Em geral, uso de MLPs melhor quando os padres de entrada so custosos e quando a
velocidade de recuperao critica;
As RBFs so melhores para treinamento online;
28. Para problemas de classificao de padres, quais seriam as eventuais vantagens e limitaes do
SVM frente ao PMC.
Boa capacidade de generalizao: esta capacidade previne a ocorrncia de overfitting, problema muito
comum que existe com as RNAs;
Robustez em grandes dimenses: o que as tornam uma opo diante de objetos de grandes dimenses,
como imagens;
Convexidade da funo objetivo: a aplicao das SVMs implica na otimizao de uma funo quadrtica,
que possui apenas um mnimo global. Esta uma vantagem sobre as RNAs, onde a funo objetivo
possui mnimos locais;
Teoria bem definida: a base terica das SVMs bem estabelecida dentro da Matemtica e Estatstica.
Alguns dos motivos para esse sucesso esto relacionados ao fato dessa tcnica exibir bom desempenho de
generalizao em muitas bases de dados reais, bem fundamentada teoricamente, o processo de
treinamento elimina a possibilidade de mnimos locais, existem poucos parmetros livres para ajustar e a
arquitetura no precisa ser encontrada por experimentao.
29. Faa uma comparao dos mtodos de avaliao
Holdout: utilizar quando o N for grande;
Random Subsampling: melhora a estimativa com holdout mas no tem um controle sobre os exemplos
usados para treinamento e para teste;
K-fold cross validation: para N intermedirio, estimao unbiased do erro verdadeiro, com elevada
varincia;
0,632 booststraping: para N pequena, estimao unbiased no limite e com pouca varincia;
30. Quais fatores influencia no desempenho do classificador?
A distribuio da classe;
Esparsidade do conjunto de dados;
Custo associado a ter classificado erradamente um exemplo;
Dimenso de conjunto de treinamento e de teste;
31. Dado dois algoritmos e um conjunto de dados, quanta confiana podemos ter na taxa de erro
estimada e como saber qual tem o melhor desempenho?
Para descobrir o quanto de confiana pode dar a taxa de erros, necessrio calcular os intervalos de
confiana. Para isso encontra-se a estimativa pontual, calcula a mdia e desvio padro e cria o intervalo
com base em uma taxa de confiana determinada previamente. Para descobrir qual dos algoritmos tem
melhor desempenho realiza-se o teste de significncia, por exemplo o teste de hiptese.
32. Como realizado o teste de hiptese?
Dado duas hipteses, a primeira que ambos algoritmos tem desempenho equivalentes e a
segunda que tem desempenhos diferentes.
Utiliza-se validao cruzada para obter amostras emparelhadas. Para cada fold calcula-se o valor
de medida (ex: tx de erro) de cada algoritmo. Depois calcula a diferena entre os algoritmos para
cada fold.
Faz um teste para verificar se a diferena estatisticamente significante.
Calcula o T absoluto atravs da mdia amostral e desvio padro das diferenas entre os
algoritmos.
Determina um valor p com base na tabela de distribuio t-student.
Determina uma taxa de significncia, alfa=0.05 ou 0.01 usualmente;
Se o valor p for menor ou igual essa taxa a hiptese nula rejeitada. Ou seja os algoritmos tem
desempenhos diferentes;