Você está na página 1de 4

PROPOSTA DE MINICURSO

Introdução ao Aprendizado Estatístico de Máquina


(Introduction to Statistical Machine Learning)

Nível: Graduação

Francisco Louzada1, Paulo Henrique Ferreira2,

Anderson Ara1, Victor Riccio Duran2

1
Universidade de São Paulo, 2 Universidade Federal da Bahia

Resumo

Machine Learning, em tradução livre do inglês, Aprendizado de Máquina


(AM), pode ser entendido como um conjunto de procedimentos que permitem a um
equipamento, em particular um computador, melhorar o seu desempenho na
execução de alguma tarefa, o que dá origem ao termo AM. Tecnicamente,
entretanto, AM se consolida com a utilização de métodos estatísticos, matemáticos
e computacionais, de análise e visualização de dados, em forma de algoritmos e
técnicas que permitem ao computador simular processos de aprendizagem.
O presente minicurso tem por objetivo a apresentação dos conceitos
introdutórios relativos ao AM, mas com um viés estatístico, o que dá origem ao título
do mesmo: Aprendizado Estatístico de Máquina (AEM).
A organização do minicurso consiste inicialmente na definição conceitual e
teórica do AM, comparação entre AM e estatística, apresentação de formas
diferentes de estruturação de bancos de dados, procedimentos de segmentação,
determinação dos modelos a serem ajustados, avaliações de performance dos
modelos, implementação no software R e finalmente a apresentação de estudos de
casos.
O conteúdo básico do minicurso, organizado em forma de livro, está relacionado
abaixo.

I. Introdução
1. Usos diversos de AEM
2. É possível aprender?
3. É viável aprender?
3.1. Overfitting
3.2. Balanço entre Viés e Variance
4. Noções básicas
4.1. Data Spending
4.1.1. Amostras treinamento e teste
4.1.1.1. Seleção randômica
4.1.1.2. Seleção por Redes Neurais de Kohonen
4.1.2 Validação Cruzada
5. Diferenças e Similaridades entre Aprendizados
6. Exemplos

II. Engenharia de Variáveis e Pré-Processamento de Dados


1. Cosntrução de variáveis
2. Pré-processamento de dados
2.1. Tipo de dados
2.2. Tipo de Amostragem
2.3. Quais modelos são necessários
3. Seleção de Variáveis
3.1. Wrapping
3.1.1 Seleção Forward
3.1.2. Algoritmos Genéticos
3.2. Filtragem
4.2.1. Índice de Gini
4.2.2. Information Gain
4.2.3. Information Ratio
4. Segmentação de Base

III. Modelos de Aprendizado Estatístico de Máquina


1. Modelos de Classificação
1.1. Análise Discriminante
1.2. Regressão Logística
1.3. Diferentes Funções de Ligação
1.4. Regressão Logística Limitada
1.5. Regressão Logística Bayesiana
2. Modelos de Regressão
2.1. Regressão Linear
2.1.1. Regressão Polinomial
2.1.2. Regressão Splines
2.1.3. Regressão Ridge
2.1.4. Regressão Lasso
3. Regressão Não-Linear

IV. Outros Modelos de Aprendizado


1. Diferentes Estruturas
2. Conexionistas
2.1. Redes Neurais
3. Evolucionistas
3.1. Algoritmos Genéticos
4. Simbolistas
4.1. Modelos de Árvores
4.2. Random Forests
5. Bayesianos
5.1. Naive Bayes
5.2. Redes Bayesianas
5.3. Redes probabilísticas de k-dependência
6. Analogistas
6.1. K-nearest neighbor
6.2. Support Vector Machine
6.3. Mistura de Gaussianas e Algoritmo EM
7. O algoritmo Mestre

V. Aprendizado de Máquina Combinado e Intenso


1. Combinação de Modelos
1.1. Bagging
1.2. Poly-Bagging
1.3. Boosting
1.4. Bayesian Model Averaging
2. Deep Learning
2.1. Convolution Networks
2.2. Rectified Linear Activation Function
2.3. Dropout Regularizer

VI. Avaliação de Modelo


1. Técnicas gerais para avaliação de modelos
1.1. Regressão
1.2. Classificação
1.2.1. Matrizes de Confusão
1.2.2. Custo relativo de má especificação
1.2.3. Valores preditivos, sensibilidades e especificidades
1.2.4. Razão de verossimilhanças
1.2.5. Medidas de Entropia
2. Que gráficos usar na avaliação de modelos?
2.1. Curva ROC
2.2. Gráficos de Resíduos
2.3. Identificação de Outliers
3. Como identificar overfitting?
3.1. Modelos mais propensos a overfitting
3.2. Existe possibilidade de reparação?

VII. Implementação de Algoritmos AEM no R


1. Apresentação inicial
2. Modelos de Classificação
3. Modelos Lineares
4. Modelos Não-lineares
5. Combinação de Modelos
6. Técnicas de Avaliação de Modelo

VIII. Estudos de Caso


1. Dados Médicos
2. Dados Industriais
3. Dados Financeiros
4. Dados Demográficos
5. Reconhecimento de Padrões
5.1. Imagem
5.2. Texto
5.3. Biometria

Bibliografia Básica

Abu-Mostafa, Y. S., Magdon-Ismail, M., & Lin, H. T. (2012). Learning from data (Vol.
4). Singapore: AMLBook.

Friedman, J., Hastie, T., & Tibshirani, R. (2001). The elements of statistical
learning (Vol. 1). Springer, Berlin: Springer series in statistics.

James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to
statistical learning. Retrieved from
http://link.springer.com/content/pdf/10.1007/978-1-4614-7138-7.pdf

Kuhn, M., & Johnson, K. (2013). Applied Predictive Modeling. New York, NY:
Springer New York. doi:10.1007/978-1-4614-6849-3

Você também pode gostar