Você está na página 1de 12

1. O que aprendizagem de mquina?

Aprendizagem de mquina um campo de estudo de tcnicas computacionais e criao de programas de


computador que aprendem um determinado comportamento ou padro automaticamente a partir de
exemplos ou observaes, melhorando seu desempenho por meio da experincia. Esse programa ir
aprender a partir da experincia E, em relao a uma classe de tarefas T, com medida de desempenho P, se
seu desempenho em T, medido por P, melhora com E;
Prever, classificar, categorizar, ajustar, fazer regresso...

O que necessrio para poder aplicar este tipo de tcnicas a um problema?


1)

necessrio haver um padro, ou seja, no aleatrio


No deve ser possvel construir uma equao matemtica ou algoritmo tradicional determinstico
que represente o problema, de tal maneira que valha a pena usar todo o processamento
Devem existir dados disponveis acerca do problema

Tarefa
Experincia de treinamento ou conjunto de dados
Medida de desempenho.

2)

3)
Componentes do aprendizado

2. Descreva o processo de aprendizado supervisionado e no supervisionado.


No processo de aprendizagem supervisionado o algoritmo de aprendizado ou indutor recebe um conjunto
de exemplos de treinamento para os quais os rtulos da classe associada so conhecidos. Ou seja, para
cada exemplo de treinamento, j conhecida a sada desejada pelo algoritmo. A aprendizagem ocorre
atravs do erro obtido, de forma que o algoritmo deve reduzir ao mximo esse erro, ajustando os seus
parmetros. Cada exemplo (instncia ou padro) descrito por um vetor de valores (atributos) e pelo
rtulo da classe associada. O objetivo do indutor construir um classificador que possa determinar
corretamente a classe de novos exemplos ainda no rotulados. Se os rtulos das classes forem discretos
ou nominais, o problema de classificao. Se forem contnuos, o problema de regresso.
No processo de aprendizagem no supervisionado o algoritmo de aprendizado ou indutor analisa os
exemplos fornecidos e tenta determinar se alguns deles podem ser agrupados de alguma maneira,
formando agrupamentos ou clusters. Aps a determinao dos agrupamentos, em geral, necessria uma
anlise para determinar o que cada agrupamento significa no contexto do problema sendo analisado.
3. Elabore um diagrama de blocos que ilustre o funcionamento do treinamento supervisionado.
Supervisionado

No supervisionado

Por reforo

4. O que significa mnimo local em treinamento supervisionado?


Significa que o algoritmo convergiu para um dos pontos mnimos no espao de erros, ou seja, atingiu um
dos menores erros, mas no o menor erro possvel (mnimo global).
Se for encontrado um mnimo local, o erro para o conjunto de treinamento para de diminuir e estaciona
em um valor maior que o aceitvel. uma regio onde qualquer pequena mudana nos pesos sinpticos
acarreta um aumento da funo de custo. Entretanto, em algum lugar do espao de busca h um conjunto
de pesos sinpticos para o qual a funo de custo menor do que o mnimo local.
5. Por que existem arquiteturas distintas de redes neurais artificiais?
Pelo o fato de que os problemas se diferenciam de vrias formas, seja por quantidade de dados,
informaes do problema ou complexidade. Vai exigir uma arquitetura especifica para determinado
problema.
A definio da arquitetura um ponto importante na criao de sistemas com redes neurais artificiais.
Dependendo do problema abordado, uma rede neural com poucas conexes pode no ser capaz de
resolver a tarefa, devido quantidade insuficiente de parmetros ajustveis. Por outro lado, se a rede
possuir conexes demais, pode haver um ajuste excessivo aos dados de treinamento, que pode prejudicar
a capacidade de generalizao da rede.
A definio de uma arquitetura de RNA est diretamente ligada ao tipo de problema que a mesma deve
resolver e com o algoritmo de treinamento que deve ser utilizado para trein-la. Em geral, os seguintes
itens fazem parte da definio da arquitetura de uma RNA: nmero de camadas da RNA, nmero de
neurnios em cada camada, tipo de conexo entre os neurnios e conectividade.
6. O que significa aprendizagem em redes neurais artificiais?
um processo no qual os parmetros livres da rede so ajustados pela estimulao contnua causada pelo
ambiente no qual a rede est inserida.
A propriedade mais importante das redes neurais a habilidade de aprender de seu ambiente e com isso
melhorar seu desempenho ao longo do tempo. Isso feito atravs de um processo iterativo de ajustes
aplicado a seus pesos, o treinamento. O aprendizado ocorre quando a rede neural atinge uma soluo
generalizada para uma classe de problemas.
7. Quais as principais diferenas existentes entre os mtodos de treinamento supervisionado e nosupervisionado.
Nos mtodos supervisionados tem a ajuda de um professor para ajustar nos ajustes e direcionar a
aprendizagem para retornar a sada desejada. Nos mtodos no supervisionados, no existe a ajuda de um
professor ou de um reforo, ou seja o mtodo tem que descobrir sozinho os padres, regularidades ou
categorias contidas nos dados;
A diferena entre os mtodos de aprendizado supervisionados e no-supervisionados reside no fato de que
os mtodos no-supervisionados no precisam de uma pr-categorizao para os registros, ou seja, no
necessrio um atributo alvo. Tais mtodos geralmente usam alguma medida de similaridade entre os
atributos. As tarefas de agrupamento e associao so consideradas como no-supervisionadas. J no
aprendizado supervisionado, os mtodos so providos com um conjunto de dados que possuem uma
varivel alvo pr-definida e os registros so categorizados em relao a ela. As tarefas mais comuns de
aprendizado supervisionado so a classificao (que tambm pode ser no-supervisionado) e a regresso.
8. Explique por que o Perceptron somente consegue classificar padres cuja fronteira de separao
entre as classes seja linear.
Pelo o fato do Perceptron conter apenas um neurnio com funo de ativao linear;

Realiza classificao de padres com apenas duas classes (hipteses). Entretanto, essas classes devem ser
linearmente separveis para o perceptron funcionar: superfcie de deciso tem a forma de um hiperplano
entre as duas classes.
9. Explique o que so situaes de underfitting e overfitting, descrevendo- se tambm os meios para
as suas deteces e as tcnicas utilizadas para o seu contorno.
Underfitting quando a funo implementada pela rede no tem complexidade suficiente para resolver o
problema. Pode ocorrer, por exemplo:

Quando o treinamento interrompido de forma prematura;


Para RNA, ao utilizar um nmero pequeno de neurnios na camada escondida (menos neurnios
=> menos pesos => menor complexidade da funo implementada pela rede).

O problema de underfitting pode ser resolvido com um conjunto de treinamento de bom tamanho.
Tcnicas de amostragem ajudam.
Overfitting quando a funo implementada pela rede tem complexidade demais para o problema, sendo
capaz de modelar detalhes demais dos dados de treinamento, no generalizando bem. Pode ocorrer, por
exemplo:

Quando deixa-se o treinamento durar mais tempo do que o suficiente;


Conjunto de treinamento pequeno e no significativo.
Para RNA, ao utilizar um nmero elevado de neurnios na camada escondida (mais neurnios
=> mais pesos => maior complexidade da funo implementada pela rede);

Dizemos que h overfitting aos exemplos de treinamento se h alguma outra hiptese que representa com
menor qualidade (maior erro) os dados de treinamento, mas que apresenta melhor desempenho (menor
erro) sobre instncias nunca vistas.
Ambas situaes podem ser detectadas atravs do resultado do algoritmo utilizando os dados de
validao.
Tcnicas utilizadas para o contorno (no contexto de RNA):

A rede ter uma quantidade suficiente de neurnios, de forma que consiga mapear corretamente a
representao do ambiente.
Treinar por tempo suficiente, se for em pouco tempo pode acontecer o underfitting e utilizando
tempo demais pode acontecer o overfitting.
Parar o treinamento quando ver que o erro de validao est aumentando;
Reduzir o nmero de parmetros ajustveis, porm caso seja poucos parmetros ter um
underfitting e se tiver parmetros de mais pode ter uma overfitting;
Utilizar alguma forma de regularizao na funo de erro para que suavizar a alteraes dos
pesos

Pr-pruning e post-pruning para lidar com overfitting.


Validao cruzada.
10. Considere os aspectos da arquitetura neural, discorra sobre trs diferenas entre redes MLP e
RBF.
Semelhanas

Redes feedforward no lineares;


Aproximadores universais;
reas de aplicao similares.

Diferenas

RBF (na forma natural) tem uma camada escondida. MLP pode ter vrias;
RBF geralmente totalmente conectada. MLP parcialmente conectada;
Na MLP os ns em diferentes camadas compartilham um modelo neural comum, embora nem
sempre a mesma funo de ativao. Na RBF os neurnios escondidos tm um propsito
diferente dos neurnios da camada de sada;
Na MLP o argumento da funo de ativao o produto interno entre a entrada e os pesos. Na
RBF a distncia euclidiana entre a entrada e os centros;
A MLP constri aproximaes globais. A RBF constri aproximaes locais com as funes
gaussianas;
Na MLP as camadas escondida e de sada so geralmente no lineares. Na RBF a camada
escondida no linear e a camada de sada linear.

11. Explique o princpio de funcionamento do KNN.


KNN (K vizinhos mais prximos) uma tcnica do paradigma de aprendizagem de mquina Baseado em
Instncias, que consiste em classificar novos dados usando dados similares cuja classe conhecida. No
KNN, todas as instancias correspondem a pontos em um espao n-dimensional, as vizinhanas so
definidas por uma mtrica de distncia ou de similaridade (Menor distncia = maior similaridade) e
determinada entrada associada classe que tiver maior quantidade de vizinhos prximos ao padro.
A quantidade de k vizinhos influencia diretamente o desempenho desta tcnica. Caso seja escolhido um
valor muito pequeno, a tcnica ser muito sensvel a rudos. Se for escolhido um valor muito grande, pode
aumentar a contribuio de exemplos pouco similares e menos relevantes, aumentando as chances de
classificar erradamente o padro.
uma tcnica de fcil implementao, gera bons resultados mesmo com poucos dados de treinamento,
mtodo lazy (no gera um modelo durante o treinamento), possui treinamento rpido e resposta lenta
durante o uso, sensvel a atributos irrelevantes ou redundantes .
12. Explique o princpio de operao do Hill Climbing.
Problema de Otimizao: Seja S o conjunto de solues possveis, onde cada soluo tem um custo
associado. O objetivo encontrar a soluo com menor custo.
1 - Escolhe aleatoriamente uma soluo.
2 - Gera uma nova soluo (vizinha) a partir da atual.
3 - Se custo (soluo nova) < custo (soluo atual),
Aceita soluo nova.
Se no,
No aceita soluo nova (continua com a atual).
4 - Repete 2 e 3 at terminarem as iteraes permitidas
Problema: Pode ficar preso em mnimos locais (pode estacionar em um mnimo local, sendo que todas as
novas solues geradas tm custo maior).
12. Explique o princpio de operao do Simulated Annealing.
Procura minimizar o problema do Hill Climbing, podendo aceitar vizinhos piores com uma dada
probabilidade, que diminui ao longo da execuo.
Se uma nova soluo for melhor que a soluo atual, ento essa nova soluo aceita. Se for pior essa
soluo pode ser aceita com uma dada probabilidade. Essa probabilidade controlada por um parmetro
chamado de temperatura, que diminui ao longo das iteraes;
1 - Escolhe aleatoriamente uma soluo.
2 - Gera uma nova soluo (vizinha) a partir da atual.
3 - Se custo (soluo nova) < custo (soluo atual),
Aceita soluo nova.
Se no,

Aceita soluo nova com probabilidade:


p = exp [ (custo(sol. nova) custo(sol. atual)) / Temperatura]
4 - Repete 2 e 3 at terminarem as iteraes permitidas.
Observao: O parmetro Temperatura vai diminuindo a cada N iteraes. Mantendo fixo o aumento
no custo, se a temperatura diminuir, a probabilidade diminui (com o aumento das iteraes, fica mais
difcil aceitar solues que pioram o custo). Mantendo fixa a temperatura, se a variao no custo
aumentar, a probabilidade diminui (em uma mesma iterao, quanto maior o aumento no custo, mais
difcil aceitar a nova soluo).
13. Explique o princpio de operao da Busca Tabu.
Procura minimizar o problema do Hill Climbing, aceitando sempre os vizinhos, sejam melhores ou piores,
guardando a melhor soluo visitada e evitando ciclos na trajetria de busca.
A partir da soluo atual, gerar um conjunto de novas solues. Aceitar sempre a melhor soluo deste
conjunto (Pode ser melhor ou pior que a soluo atual. Pode haver ciclos na trajetria (aceitar solues
que j foram visitadas)).
Guardar na memria: A melhor soluo encontrada desde o incio da execuo, uma Lista Tabu, contendo
as K solues mais recentemente visitadas. Estas solues so proibidas (para evitar ciclos).
A soluo final dada pelo algoritmo a melhor soluo encontrada desde o incio da execuo, e no a
ltima.
1 - Escolhe aleatoriamente uma soluo.
2 - Guarda a soluo em melhor soluo e na lista tabu.
3 - Gera um conjunto de N solues vizinhas atual.
4 - Aceita a soluo de menor custo entre os N vizinhos (que no esteja na lista tabu).
5 - Atualiza melhor soluo e insere a nova soluo na lista tabu.
6 - Repete 3 a 5 at terminarem as iteraes permitidas.
7 - Retorna melhor soluo.
14. Explique o funcionamento do processo de otimizao via algoritmos genticos.
Dado um problema de otimizao, seja para encontrar o mximo ou o mnimo, o AG vai resolver da
seguinte forma:
Cria os indivduos, tambm chamados de cromossomos, que so possveis resolues do
problema. Podendo ser representado de vrias formas;
Encontra a aptido de cada cromossomo, isso , uma nota dada para o quanto boa a resoluo
contida no cromossomo;
Faz uma seleo para encontrar os melhores indivduos, dentro os tipos de seleo esto, a
seleo por roleta ou por torneio;
Realiza o crossover dos cromossomos, combinando os pais escolhidos para gerar novos filhos; O
crossover realizado para os pares que estiverem dentro da probabilidade da taxa de crossover,
caso contrrio os filhos sero a cpia idntica dos pais;
Realiza a mutao, invertendo os valores dos bits dos cromossomos. Tambm s acontece se
estiver na taxa de mutao;
Realiza o elitismo, guardando os melhores cromossomos para a prxima gerao.
Por fim, possivelmente o algoritmo ter encontra o melhor valor para o problema, porm no
garantido.
15. Compare as abordagens Simulated Annealing, Busca Tabu e Algoritmos Genticos.
Os trs so metaheursticas.
Uma iterao de Tabu Search exige mais esforo computacional do que uma iterao de Simulated
Annealing (mais operaes). Porm, em geral, Tabu Search precisa de menos iteraes para convergir,
pois avalia um conjunto de vizinhos a cada iterao.

Simulated Aneealing: So criadas novas solues aleatoriamente prximas as solues atuais; S aceita a
nova soluo se for melhor que a anterior ou a partir de uma probabilidade dividida por uma temperatura
que vai diminuindo a cada iterao; Exigem menos recursos computacionais; Garante a convergncia,
mas pode ser muito lenta (precisa decrementar a temperatura lentamente);
Busca Tabu: So criadas novas solues aleatoriamente prximas as solues atuais; Quando gerado um
conjunto de solues, vai aceitar a melhor soluo do conjunto, independentemente de ser melhor ou no
que a anterior; Precisa de menos iteraes para convergir; O fato de a nova soluo ser sempre aceita
como soluo atual, impede que o algoritmo se prenda em mnimos locais.
AG: so criadas novas solues com base em combinao e transformao das solues atuais; Guarda
sempre as melhores solues para as prximas geraes; Pode cair facilmente em mnimos locais;
16. Qual o princpio por trs da navalha de Occam?
Preferir a hiptese mais simples que representa os dados. A ideia que existem menos hipteses curtas
que longas, pois obviamente pode-se combinar operaes para formular hipteses mais complexas. O ID3
prefere rvores mais curtas.
Observamos, no dia a dia, que preferimos hipteses mais simples, ou curtas, que as mais complexas para
resolver diversos problemas.
Acredita-se que hipteses complexas geradas para conjuntos de treinamento podem falhar para
generalizar dados nunca vistos. Outra maneira de visualizar advm de Teoria da Informao, em que
mensagens mais curtas consomem menos recursos para serem transmitidas.
17. No contexto dos algoritmos genticos, como o processo de busca para chegar a soluo de um
problema realizada?
Atravs da seleo, onde os melhores cromossomos so selecionados para produzir novos filhos, atravs
de crossover e mutao, de forma que o AG dirigido para as melhores regies do espao de busca. Em
resumo, a busca realizada pelos os operadores de crossover e mutao.
18. No contexto de sistemas difusos, quais so as etapas de raciocnio envolvidas na soluo de um
dado problema?
Processo de Fuzzificao: Etapa na qual as variveis lingusticas so definidas de forma subjetiva, bem
como as funes membro; Determinao dos valores de pertinncia das variveis de entrada
Processo de Inferncia: etapa na qual as proposies (regras) so definidas e depois examinadas
paralelamente; Transformao dos conjuntos difusos de cada varivel de sada em um nico. Realiza a
interpretao das regras da base de conhecimento.
Processo de defuzzificao: Etapa na qual as regies resultantes so convertidas em valores para a
varivel de sada do sistema; Produz um valor crisp a partir de um conjunto difuso
19. No contexto de redes neurais artificiais, quais so as etapas de treinamento de uma rede MLP
utilizando o algoritmo de treinamento Backpropagation?
Na primeira etapa os pesos da rede so fixos e ponderam as entradas de cada camada propagando para
frente, resultando na sada da rede; A segunda etapa, conhecida como passo para trs, consiste em ajustar
os pesos de acordo com a regra de correo de erro, o sinal do erro da rede propagado para trs atravs
da rede;
Primeiro, um padro apresentado camada de entrada da rede. A atividade resultante flui atravs da
rede, camada por camada, at que a resposta seja produzida pela camada de sada. No segundo passo, a
sada obtida comparada sada desejada para esse padro particular. Se esta no estiver correta, o erro
calculado. O erro propagado a partir da camada de sada at a camada de entrada, e os pesos das
conexes das unidades das camadas internas vo sendo modificados conforme o erro retropropagado.

20. Descreva o funcionamento do Algoritmo ID3 (rvore de Deciso).

Considera-se um conjunto de dados;


Constri a rvore em uma abordagem top-down considerando qual o atributo mais importante
para ser alocado para a raiz da rvore;
Cada atributo avaliado para se tornar o n raiz. Para isso utiliza-se a medida de ganho de
informao, ou seja escolhido o atributo que tiver o ganho de informao mais elevado;
Cria-se os ns filhos da raiz de acordo com a quantidade de atributo ele pode assumir;
Repete-se o processo para cada n filho da raiz e assim sucessivamente at todos os atributos
serem includos da raiz at a folha ou os exemplos de treinamento associados com dado ramo
apresentem o mesmo valor de sada(+ ou -)

21. O grafo abaixo mostra a ligao entre 5 cidades e as respectivas distncias em quilmetros:

Tem-se um problema onde necessrio passar por todas as cidades, apenas uma vez. O objetivo
encontrar uma rota de menor custo usando um algoritmo gentico.
a) Proponha uma maneira de codificar os cromossomos.
Em cada posio dos cromossomos (solues candidatas) estar o nmero referente a cada cidade, sendo
assim o cromossomo uma sequncia de cidades;
b) Defina uma funo de aptido para avaliar a qualidade dos cromossomos.
Distncia do percurso (sequncia de cidades).
c) Gere dois cromossomos e avalie a aptido deles.
Cromossomo 1: [1 4 2 5 3]. Aptido= 3+3+8+3+9= 26;
Cromossomo 2: [1 3 2 4 5]. Aptido= 9+4+3+3+6= 25;
d) Realize o cruzamento entre os cromossomos.
Considerando um ponto de corte na casa 3:
Cromossomo novo 1 vai ser [1 4 2 4 5]
Cromossomo novo 2 vai ser [1 3 2 5 3]
e) Aplique uma mutao em um gene dos cromossomos.
Cromossomo novo 1 vai ficar [1 4 2 3 5]
Cromossomo novo 2 vai ficar [1 3 2 5 4]

f) Aplique a funo de aptido nos descendentes gerados verificando se a soluo encontrada


melhor ou no.
Cromossomo novo 1: [1 4 2 3 5]. Aptido = 3+3+4+3+6=19 (sim)
Cromossomo novo 2: [1 3 2 5 4]. Aptido= 9+4+8+3+3=27 (no)
22. Considere uma aplicao que possui quatro entradas e duas sadas. O projetista menciona que
neste caso a rede feedforward de camadas mltiplas a ser implementada deve conter
necessariamente quatro neurnios na primeira camada escondida. Discorra se tal informao
pertinente.
A camada escondida responsvel por extrair caractersticas da entrada, e no existe uma frmula para
determinar a quantidade de neurnios na camada escondida, deixando isso para o projetista determinar
segundo a sua experincia do problema. Sabendo disso, se ele determina que devem ser quatro neurnios
ento ele est ciente que para extrair as caractersticas do dados de entrada vo ser necessrio essa
quantidade. Porm aconselhvel que o numero de neurnios seja acrescentado de forma polinomial em
relao ao nmero de entrada.
Com relao ao nmero de neurnios nas camadas escondidas, este geralmente definido
EMPIRICAMENTE. Deve-se ter cuidado para no utilizar nem unidades demais, o que pode levar a rede
a memorizar os dados de treinamento (overfitting), ao invs de extrair as caractersticas gerais que
permitiro a generalizao, nem um nmero muito pequeno, que pode forar a rede a gastar tempo em
excesso tentando encontrar uma representao tima. Devido a estas dificuldades recomendado manter
o nmero de neurnios escondidos baixo, mas no to baixo quanto o estritamente necessrio.
23. Em relao ao exerccio anterior, cite alguns fatores que influenciam na determinao de
nmero de camadas escondidas de uma rede feedforward de camadas mltiplas.
Na maioria dos casos apenas uma camada escondida resolve o problema apenas adicionando novos
neurnios; Utilizar mais de uma camada torna o treinamento mais complexo, e caso seja o
backpropagation quanto mais a camada se distnca da camada de sada menos ajustes relevantes em seus
pesos ela ter; Logo interessante utilizar mais de uma camada escondida, apenas quando adicionando
novos neurnios na camada existente no resolve o problema. Isso se aplica a problemas muito
complexos.
Para a maiora dos problemas, uma camada escondida suficiente. Entretanto, se seus dados contm
descontinuidades, uma camada escondida adicional pode ajudar. importante notar que redes neurais
com 2 camadas intermedirias pode aproximar funes de quaisquer tipos ou formas, ento no h uma
razo plausvel para usar mais de duas.
A utilizao de um grande nmero de camadas escondidas no recomendado. Cada vez que o erro
mdio durante o treinamento utilizado para atualizar os pesos das sinapses da camada imediatamente
anterior, ele se torna menos til ou preciso. A nica camada que tem uma noo precisa do erro cometido
pela rede a camada de sada. A ltima camada escondida recebe uma estimativa sobre o erro. A
penltima camada escondida recebe uma estimativa da estimativa, e assim por diante. Testes empricos
com a rede neural MLP backpropagation no demonstram vantagem significante no uso de duas camadas
escondidas ao invs de uma para problemas menores. Por isso, para a grande maioria dos problemas
utiliza-se apenas uma camada escondida quando muito duas e no mais que isso. Para a resoluo de
problemas de classificao uma rede neural com uma camada escondida mais que suficiente. Os
problemas de estimao de funo tambm podem ser resolvidos utilizando-se apenas uma camada mas,
s vezes, pode ser necessrio a utilizao de duas camadas escondidas.
24. Explique se possvel realizar o treinamento da rede PMC, por meio do algoritmo
Backpropagation, quando se inicializa todas as matrizes de pesos com elementos nulos. Discorra
tambm se h ento alguma implicao quando se inicializa todos os elementos das matrizes de
pesos com valores iguais (diferentes de zeros).
Os pesos iniciais devem ser pequenos o suficiente para que o neurnio opere em uma regio fora da
saturao e grande o suficiente para que o tempo de treinamento no se torne muito elevado. A
atualizao de um peso entre duas unidades depende da derivada da funo de ativao da unidade

posterior e funo de ativao da unidade anterior. Por esta razo, importante evitar escolhas de pesos
iniciais que tornem as funes de ativao ou suas derivadas iguais a zero. Os valores para os pesos
iniciais no devem ser muito grandes, tal que as derivadas das funes de ativao tenham valores muito
pequenos (regio de saturao). Por outro lado, se os pesos iniciais so muito pequenos, a soma pode cair
perto de zero, onde o aprendizado muito lento.
No se deve inicializar todos os pesos em zero pois no h mapeamento inicial restringindo a busca
vizinhana da origem.
25. Explique quais seriam as eventuais implicaes em se assumir a mesma varincia para todas as
funes de ativao dos neurnios que compem a camada intermediria da rede RBF.
26. Considerando novamente o problema do ou-exclusivo {porta Xor}, discorra sobre a quantidade
mnima de neurnios que seriam necessrios na camada intermediria da RBF visando a soluo do
problema.
Com apenas 2 neurnios pode fazer o mapeamento para o espao escondido de forma que o problema
possa ser separado linearmente.

27. Para problemas de classificao de padres, quais seriam as eventuais vantagens e limitaes da
rede RBF frente ao PMC.

Precisam de pelo o menos 10x mais dados para atingir a acurcia das MLP;
Com uma quantidade correta de dados e de nmeros de neurnios escondidos, possvel ter
melhor resultado de classificao e menos falsos positivos que a MLP;
O tempo de treinamento menor, pelo o fato de apenas uma parcela dos neurnios escondidos
respondem a determinados padres, enquanto a MLP tem todos os seus neurnios avaliados e
seus pesos ajustados para cada vetor;
Em geral, uso de MLPs melhor quando os padres de entrada so custosos e quando a
velocidade de recuperao critica;
As RBFs so melhores para treinamento online;

28. Para problemas de classificao de padres, quais seriam as eventuais vantagens e limitaes do
SVM frente ao PMC.

Consegue lidar bem com grande conjunto de dados;


Trata bem dados de alta dimenso;
Processo de classificao rpido;
Encontra sempre os mnimos globais;

Tempo de treinamento longo;


Na sua forma bsica um classificador binrio;

Boa capacidade de generalizao: esta capacidade previne a ocorrncia de overfitting, problema muito
comum que existe com as RNAs;
Robustez em grandes dimenses: o que as tornam uma opo diante de objetos de grandes dimenses,
como imagens;
Convexidade da funo objetivo: a aplicao das SVMs implica na otimizao de uma funo quadrtica,
que possui apenas um mnimo global. Esta uma vantagem sobre as RNAs, onde a funo objetivo
possui mnimos locais;
Teoria bem definida: a base terica das SVMs bem estabelecida dentro da Matemtica e Estatstica.
Alguns dos motivos para esse sucesso esto relacionados ao fato dessa tcnica exibir bom desempenho de
generalizao em muitas bases de dados reais, bem fundamentada teoricamente, o processo de
treinamento elimina a possibilidade de mnimos locais, existem poucos parmetros livres para ajustar e a
arquitetura no precisa ser encontrada por experimentao.
29. Faa uma comparao dos mtodos de avaliao
Holdout: utilizar quando o N for grande;
Random Subsampling: melhora a estimativa com holdout mas no tem um controle sobre os exemplos
usados para treinamento e para teste;
K-fold cross validation: para N intermedirio, estimao unbiased do erro verdadeiro, com elevada
varincia;
0,632 booststraping: para N pequena, estimao unbiased no limite e com pouca varincia;
30. Quais fatores influencia no desempenho do classificador?

A distribuio da classe;
Esparsidade do conjunto de dados;
Custo associado a ter classificado erradamente um exemplo;
Dimenso de conjunto de treinamento e de teste;

31. Dado dois algoritmos e um conjunto de dados, quanta confiana podemos ter na taxa de erro
estimada e como saber qual tem o melhor desempenho?
Para descobrir o quanto de confiana pode dar a taxa de erros, necessrio calcular os intervalos de
confiana. Para isso encontra-se a estimativa pontual, calcula a mdia e desvio padro e cria o intervalo
com base em uma taxa de confiana determinada previamente. Para descobrir qual dos algoritmos tem
melhor desempenho realiza-se o teste de significncia, por exemplo o teste de hiptese.
32. Como realizado o teste de hiptese?

Dado duas hipteses, a primeira que ambos algoritmos tem desempenho equivalentes e a
segunda que tem desempenhos diferentes.
Utiliza-se validao cruzada para obter amostras emparelhadas. Para cada fold calcula-se o valor
de medida (ex: tx de erro) de cada algoritmo. Depois calcula a diferena entre os algoritmos para
cada fold.
Faz um teste para verificar se a diferena estatisticamente significante.
Calcula o T absoluto atravs da mdia amostral e desvio padro das diferenas entre os
algoritmos.
Determina um valor p com base na tabela de distribuio t-student.
Determina uma taxa de significncia, alfa=0.05 ou 0.01 usualmente;
Se o valor p for menor ou igual essa taxa a hiptese nula rejeitada. Ou seja os algoritmos tem
desempenhos diferentes;

33. Quais as medidas para classificao binria?


Para essas medidas utiliza-se a Matriz de confuso: faz uma matriz, onde cada clula a quantidade de
elementos pertencentes as classes, sendo a diagonal os valores de elementos classificados corretamente;
Acurcia: a taxa total de acertos sobre o total de tentativas;
Revocao: taxa de exemplos positivos considerando os que foram erroneamente considerados negativos
sobre o total de exemplos cuja classe verdadeira positiva;
Preciso: taxa de exemplos positivos considerando os que foram erroneamente considerados positivos
sobre o total de exemplos classificados como positivos mas que nem sempre so;
Sensibilidade: taxa de exemplos positivos considerando os que foram erroneamente considerados como
negativos sobre o total de exemplos cuja classe verdadeira positiva;
Especificidade: taxa de exemplos negativos considerando todos os exemplos que deveriam ser
considerados negativos sobre o total de exemplos cuja classe verdadeira negativa;
34. Quais as consequncias para o desbalanceamento de dados e como tratar?
Ter uma maior tendncia para responder bem para as classes majoritrias em detrimento das minoritrias;
Pode ser tratado atravs de mtodos de amostragem, aprendizagem de apenas uma classe ou seleo de
atributos;
35 Compare treinamento RNA online e batch.
Online: No treinamento por padro, os pesos so atualizados aps a apresentao de cada exemplo de
treinamento. Nesta abordagem, a ordem da apresentao dos padres importante para a velocidade de
aprendizado da rede e, em alguns casos, deve-se reorganizar esta ordem, de forma a acelerar o
treinamento. A dinmica de treinamento por padro ESTVEL se a taxa de aprendizado for PEQUENA
( aconselhvel reduzir progressivamente esta taxa durante o treinamento). Quando taxas elevadas so
utilizadas, a rede geralmente se torna INSTVEL. A abordagem por padro geralmente mais rpida,
principalmente se o conjunto de treinamento for grande e redundante. Uma outra vantagem desta tcnica
que ela requer menos memria.
Batch: Na abordagem por ciclo os pesos so atualizados aps todos os exemplos de treinamento terem
sido apresentados. Esta tcnica geralmente mais ESTVEL e o treinamento menos influenciado pela
ordem de apresentao dos padres, mas ela pode ser lenta se o conjunto de treinamento for grande e
redundante. Uma outra desvantagem que ela requer mais memria. Comparativamente com o
treinamento incremental, o treinamento por batch geralmente mais estvel embora mais lento.

Você também pode gostar