MC4 2

PROPOSTA DE MINICURSO
Introdução ao Aprendizado Estatístico de Máquina

(Introduction to Statistical Machine Learning)
Nível: Graduação
Francisco Louzada1, Paulo Henrique Ferreira2,
Anderson Ara1, Victor Riccio Duran2
1
Universidade de São Paulo, 2 Universidade Federal da Bahia
Resumo
Machine Learning, em tradução livre do inglês, Aprendizado de Máquina

(AM), pode ser entendido como um conjunto de procedimentos que permitem a um
equipamento, em particular um computador, melhorar o seu desempenho na
execução de alguma tarefa, o que dá origem ao termo AM. Tecnicamente,
entretanto, AM se consolida com a utilização de métodos estatísticos, matemáticos
e computacionais, de análise e visualização de dados, em forma de algoritmos e
técnicas que permitem ao computador simular processos de aprendizagem.
O presente minicurso tem por objetivo a apresentação dos conceitos
introdutórios relativos ao AM, mas com um viés estatístico, o que dá origem ao título
do mesmo: Aprendizado Estatístico de Máquina (AEM).
A organização do minicurso consiste inicialmente na definição conceitual e
teórica do AM, comparação entre AM e estatística, apresentação de formas
diferentes de estruturação de bancos de dados, procedimentos de segmentação,
determinação dos modelos a serem ajustados, avaliações de performance dos
modelos, implementação no software R e finalmente a apresentação de estudos de
casos.
O conteúdo básico do minicurso, organizado em forma de livro, está relacionado
abaixo.
I. Introdução
1. Usos diversos de AEM
2. É possível aprender?
3. É viável aprender?
3.1. Overfitting
3.2. Balanço entre Viés e Variance
4. Noções básicas
4.1. Data Spending
4.1.1. Amostras treinamento e teste
4.1.1.1. Seleção randômica
4.1.1.2. Seleção por Redes Neurais de Kohonen
4.1.2 Validação Cruzada
5. Diferenças e Similaridades entre Aprendizados
6. Exemplos
II. Engenharia de Variáveis e Pré-Processamento de Dados

1. Cosntrução de variáveis
2. Pré-processamento de dados
2.1. Tipo de dados
2.2. Tipo de Amostragem
2.3. Quais modelos são necessários
3. Seleção de Variáveis
3.1. Wrapping
3.1.1 Seleção Forward
3.1.2. Algoritmos Genéticos
3.2. Filtragem
4.2.1. Índice de Gini
4.2.2. Information Gain
4.2.3. Information Ratio
4. Segmentação de Base
III. Modelos de Aprendizado Estatístico de Máquina

1. Modelos de Classificação
1.1. Análise Discriminante
1.2. Regressão Logística
1.3. Diferentes Funções de Ligação
1.4. Regressão Logística Limitada
1.5. Regressão Logística Bayesiana
2. Modelos de Regressão
2.1. Regressão Linear
2.1.1. Regressão Polinomial
2.1.2. Regressão Splines
2.1.3. Regressão Ridge
2.1.4. Regressão Lasso
3. Regressão Não-Linear
IV. Outros Modelos de Aprendizado

1. Diferentes Estruturas
2. Conexionistas
2.1. Redes Neurais
3. Evolucionistas
3.1. Algoritmos Genéticos
4. Simbolistas
4.1. Modelos de Árvores
4.2. Random Forests
5. Bayesianos
5.1. Naive Bayes
5.2. Redes Bayesianas
5.3. Redes probabilísticas de k-dependência
6. Analogistas
6.1. K-nearest neighbor
6.2. Support Vector Machine
6.3. Mistura de Gaussianas e Algoritmo EM
7. O algoritmo Mestre
V. Aprendizado de Máquina Combinado e Intenso

1. Combinação de Modelos
1.1. Bagging
1.2. Poly-Bagging
1.3. Boosting
1.4. Bayesian Model Averaging
2. Deep Learning
2.1. Convolution Networks
2.2. Rectified Linear Activation Function
2.3. Dropout Regularizer
VI. Avaliação de Modelo

1. Técnicas gerais para avaliação de modelos
1.1. Regressão
1.2. Classificação
1.2.1. Matrizes de Confusão
1.2.2. Custo relativo de má especificação
1.2.3. Valores preditivos, sensibilidades e especificidades
1.2.4. Razão de verossimilhanças
1.2.5. Medidas de Entropia
2. Que gráficos usar na avaliação de modelos?
2.1. Curva ROC
2.2. Gráficos de Resíduos
2.3. Identificação de Outliers
3. Como identificar overfitting?
3.1. Modelos mais propensos a overfitting
3.2. Existe possibilidade de reparação?
VII. Implementação de Algoritmos AEM no R

1. Apresentação inicial
2. Modelos de Classificação
3. Modelos Lineares
4. Modelos Não-lineares
5. Combinação de Modelos
6. Técnicas de Avaliação de Modelo
VIII. Estudos de Caso

1. Dados Médicos
2. Dados Industriais
3. Dados Financeiros
4. Dados Demográficos
5. Reconhecimento de Padrões
5.1. Imagem
5.2. Texto
5.3. Biometria
Bibliografia Básica
Abu-Mostafa, Y. S., Magdon-Ismail, M., & Lin, H. T. (2012). Learning from data (Vol.
4). Singapore: AMLBook.
Friedman, J., Hastie, T., & Tibshirani, R. (2001). The elements of statistical
learning (Vol. 1). Springer, Berlin: Springer series in statistics.
James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to
statistical learning. Retrieved from
http://link.springer.com/content/pdf/10.1007/978-1-4614-7138-7.pdf
Kuhn, M., & Johnson, K. (2013). Applied Predictive Modeling. New York, NY:
Springer New York. doi:10.1007/978-1-4614-6849-3

MC4 2

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

MC4 2

Enviado por

Direitos autorais:

Formatos disponíveis

PROPOSTA DE MINICURSO

Introdução ao Aprendizado Estatístico de Máquina

Francisco Louzada1, Paulo Henrique Ferreira2,

Anderson Ara1, Victor Riccio Duran2

Machine Learning, em tradução livre do inglês, Aprendizado de Máquina

II. Engenharia de Variáveis e Pré-Processamento de Dados

III. Modelos de Aprendizado Estatístico de Máquina

IV. Outros Modelos de Aprendizado

V. Aprendizado de Máquina Combinado e Intenso

VI. Avaliação de Modelo

VII. Implementação de Algoritmos AEM no R

VIII. Estudos de Caso

Você também pode gostar