Escolar Documentos
Profissional Documentos
Cultura Documentos
e Classificação
Otimização de Modelos
Revisão Textual:
Prof.ª Dr.ª Luciene Oliveira da Costa Granadeiro
Otimização de Modelos
OBJETIVOS
DE APRENDIZADO
• Explorar problemas preditivos com modelos;
• Conceituar overfitting;
• Estudar estratégias para ajuste de parâmetros;
• Aplicar técnicas para otimização de modelos.
UNIDADE Otimização de Modelos
8
Indução de Modelos Preditivos
O nosso objetivo, ao construir um modelo, é ter uma representação simplificada
de uma realidade particular. Os modelos construídos servem a um propósito especí-
fico simplificado a partir de um conjunto de pressuposições sobre o que é importante
ou não dentro dessa especificidade. Por exemplo, o mapa da Figura 1 é um modelo
que representa a cartografia de algumas regiões do Brasil. Neste mapa, encontramos
destaques para alguns elementos em detrimento de outros que poderiam fazer parte.
Figura 1 – Mapa
Fonte: Getty Images
Dedução e indução: entenda de uma vez por todas a diferença entre os dois,
disponível em: https://bit.ly/2INLc7E
9
9
UNIDADE Otimização de Modelos
10
ral, o termo paramétrico refere-se à média e ao desvio-padrão, que são os parâmetros que
definem as populações que apresentam distribuição normal.
Em contrapartida, a modelagem não paramétrica corresponde a técnicas que não depen-
dem de nenhuma distribuição de dados particular. Por exemplo, um histograma é uma es-
timação não paramétrica de distribuição de probabilidade.
Esse caso pode ser representado matematicamente pela equação seguinte, em que a
corresponde à inclinação da reta e b é a interceptação y, ou seja, quando y = 0:
y ax + b
=
Um novo exemplo x pode ser classificado como positivo (vermelho) se ele estiver
acima da linha imaginária, e como negativo (azul) se ele estiver abaixo.
11
11
UNIDADE Otimização de Modelos
, ax b 0
classe ( x)
, ax b 0
Uma função definida por partes é uma função definida em termos de várias outras
subfunções e cuja definição depende do valor da variável independente. Cada uma das
subfunções que definem a função pertence a um subdomínio disjunto entre si que estão
contidos no domínio da função.
Esse tipo de função por partes é conhecido como discriminante linear, pois ele
discrimina (separa) os exemplos entre as classes conhecidas. A nossa linha imaginá-
ria, existindo, passa a ser a combinação linear dos atributos do problema, sendo
conhecida como limite de decisão. No exemplo apresentado, a combinação linear
é uma reta. O limite de decisão pode ser um plano quando temos três dimensões ou
um hiperplano para mais dimensões.
y =f ( x) =w0 + w1 x1 + w2 x2 +
12
Regressão por Funções
A regressão para uma função linear toma como base a ideia da função discrimi-
nante linear conhecida anteriormente:
y =f ( x) =w0 + w1 x1 + w2 x2 +
Você deve ter observado que a última pergunta corresponde aos erros do
processo de treinamento. Assim, a nossa função-objetivo deverá minimizar os erros.
Nos métodos de regressão, o erro é calculado para cada ponto de dado no conjunto
de treinamento e os resultados são somados. Entre os diversos modelos que podem
se ajustar aos dados, o modelo ótimo será aquele o menor montante de erros nos
dados de treinamento.
Uma forma de calcular o erro entre o valor estimado (ê) e o valor real (e) é sub-
traindo um valor do outro, como na equação a seguir:
erroAbsoluto= e − ê
1 n
MAE
= ∑ ei − êi
n i =1
13
13
UNIDADE Otimização de Modelos
entrada, a função linear resultante pode ficar distorcida. Assim, é importante que o
analista escolha a melhor função-objetivo para o problema de regressão a partir de
critérios definidos pelo problema de negócio.
Por exemplo, uma empresa pode desejar saber quais são os casos em que a
probabilidade de fraude tem maior perda monetária para a empresa. Observe que
uma transação de baixo valor (como R$ 1) pode ocasionar uma probabilidade de
fraude alta (p = 1), mas não representa grande perda financeira. Em contrapartida,
uma transação de alto valor (R$ 1 milhão) pode ter uma probabilidade de fraude
média (p = 0,69), exigindo atenção especial dos analistas.
Para problemas como esse, podemos aplicar um modelo linear aos dados, mas
escolhendo outra função objetivo, mais adequada à estimativa de probabilidade de
classe. A regressão logística é um procedimento que podemos utilizar nesse caso.
14
Overfitting
Nas seções anteriores, você conheceu com mais detalhes a importância dos atri-
butos nos problemas de análise preditiva e a relação dos atributos com os modelos.
Você também conheceu o funcionamento dos modelos quando eles são aplicados a
dados de treinamento em situações simples e mais complexas, tanto para problemas
de classificação quanto para problemas de regressão.
Você ainda observou a importância em ter um modelo que se ajuste “bem” aos
dados de treinamento, e que esse ajuste pode ser controlado por meio de pesos, que
são combinados em uma função.
Um problema que queremos estudar a respeito desse ajuste é sobre o quão flexível
o nosso modelo deve ser para se ajustar aos dados. Devemos notar aqui que a
construção de um modelo tem como finalidade não os dados de entrada, mas os
dados que serão conhecidos após a modelagem. Sempre estaremos buscando um
modelo que se aplique a novos dados, que podem ser extraídos da mesma aplicação
ou população originária.
Se, por um lado, a flexibilidade é importante para a busca de padrões, por outro,
ela pode reconhecer como padrões o que na verdade são ocorrências ao acaso. Nos-
so modelo deve priorizar a generalização, ou seja, a predição de novos casos que
ainda não foram observados.
Nesse exemplo, que não pode ser considerado um modelo preditivo, não existe
generalização. O modelo criado não é capaz de extrapolar além do que já foi obser-
vado. Ele é ajustado perfeitamente aos dados de treinamento, criando um sobreajuste
a esses dados.
15
15
UNIDADE Otimização de Modelos
Mesmo que o modelo de tabela nunca seja construído por um você, é importante
observar que o overfiting pode existir em qualquer modelo preditivo construído por
Machine Learning. É verdade que existem modelos que levam mais ao sobreajuste
que outros, porém, nem sempre é ideal selecioná-los. Muitas vezes, o nosso proble-
ma investigado será tão complexo que um modelo igualmente complexo será neces-
sário, ainda que ele possa nos prejudicar em relação ao sobreajuste. Assim, a melhor
estratégia é identificar o overfitting e gerenciar a complexidade.
Os melhores modelos serão aqueles que se encaixam melhor aos dados e forem
mais simples.
Ajuste de Hiperparâmetros
Um hiperparâmetro é um parâmetro que não é diretamente aprendido pelos es-
timadores. Por exemplo, os parâmetros C, kernel e gamma são hiperparâmetros do
algoritmo SVM. Todos esses hiperparâmetros são utilizados para controlar a apren-
dizagem. Ao contrário dos pesos das redes neurais artificiais – que são considerados
parâmetros do algoritmo –, os hiperparâmetros não podem ser aprendidos durante
o processo de treinamento.
16
Além de a otimização de hiperparâmetros melhorar o desempenho preditivo do modelo
de decisão, podemos controlar o sobreajuste do modelo aos dados de treinamento.
Embora a busca aleatória possa não selecionar o candidato ótimo, ela pode superar
a busca em grade quando existe um pequeno conjunto de hiperparâmetros pequeno
que afeta o desempenho final da aprendizagem (BERGSTRA; BENGIO, 2012). Outra
vantagem da busca aleatória é que ela permite que conhecimento a priori seja adicio-
nado à busca.
17
17
UNIDADE Otimização de Modelos
Material Complementar
Indicações para saber mais sobre os assuntos abordados nesta Unidade:
Vídeos
Calibragem dos hiperparametros em redes neurais profundas
https://youtu.be/cWyuUpZfZl0
Underfitting e Overfitting
https://youtu.be/MwZbuMRVxtk
Prepare o seu conjunto de dados para machine learning
https://youtu.be/5Dohtgm79n0
Leitura
Ajuste do modelo: subajuste versus sobreajuste
https://amzn.to/37vQBdX
Model selection and evaluation
https://bit.ly/34iHSd0
18
Referências
BERGSTRA, J.; BENGIO, Y. Random search for hyper-parameter optimization.
The Journal of Machine Learning Research, v. 13, n. 1, p. 281-305, 2012.
KUHN, M.; JOHNSON, K. Applied predictive modeling. New York: Springer, 2013.
19
19