O que é ?
Como fazer ?
www.youtube.com/carvalhoribeiro
Como fazer ? Interferência Variável Contínua Variável Categórica
• SDV • Apriori
Não supervisionado Maquina • PCA • FP-Growth
• K-means • Hidden Markov Model
Machine Humano
Semi supervisionado
Learning Maquina
Humano
Por reforço Maquina
www.youtube.com/carvalhoribeiro
RandomForest
Características Aplicações
• Algoritmo de aprendizagem • Saúde analisar o histórico médico de um
Amostras supervisionada (dados rotulados) paciente para identificar doenças.
Encontrar a correta combinação de
• É baseado em um conjunto de árvores componentes em medicina.
Floresta 1 Floresta 2 de decisão
• No setor financeiro, determinar o
• Muito utilizado, por ser simples, rápido e desempenho futuro de uma ação.
eficiente.
• E-commerce determinar se um cliente irá
• Pode ser usado em tarefas de gostar do produto ou não
classificação quanto de regressão.
• Setor bancário: detectar clientes que
• A “floresta” que ele cria é uma irão utilizar os serviços bancários mais
combinação (ensemble) de árvores de frequentemente que outros. Clientes que
Predição decisão, na maioria dos casos treinados irão pagar suas dívidas pontualmente.
com o método de bagging.
• Caso conhecido
• Modelo é simples
www.youtube.com/carvalhoribeiro
Randon Forest e o Titanic
RandomForest
• Resolver um problema de classificação onde somente duas respostas são aceitáveis, ‘sobreviveu’ ou ‘não sobreviveu’
• Sobreviveu
• Classe 1º 2º 3º
• Nome
• Sexo
• Idade
• Irmãos ou cônjugues
• Pais e crianças
• Bilhete
• Preço da tarifa
• Cabine
• Ponto de Embarque
Sugestões:
• Data Science vídeo – Drenando o Titanic or Drain the Titanic
• Baixar os dados – Site do Kaggle.com
Como fazer ?
Algorítmo
treinamento
Limpeza, padronização, Dados
normatização e • Sobreviveu de teste
rotulagem dos dados • Classe 1º 2º 3º
• Nome • Sobreviveu
• Sexo • Classe 1º 2º 3º
• Idade • Nome
• Irmãos ou cônjugues
Validação
• Sexo
• Pais e crianças • Idade
• Bilhete • Irmãos ou cônjugues
• Preço da tarifa • Pais e crianças
• Cabine • Bilhete
• Ponto de Embarque • Preço da tarifa
• Cabine
• Ponto de Embarque
Importação dos dados
Resultados
www.youtube.com/carvalhoribeiro
Randon Forest e o Titanic
RandomForest
• Sobreviveu
• Classe 1º 2º 3º
• Nome
• Sexo
• Idade
• Irmãos ou cônjugues
• Pais e crianças
• Bilhete
• Preço da tarifa
• Cabine
• Ponto de Embarque
Sugestões:
• Data Science vídeo – Drenando o Titanic or Drain the Titanic
• Baixar os dados – Site do Kaggle.com www.youtube.com/carvalhoribeiro
25
20
variaveis
Age
15 Embarked
variaveis
Fare
Parch
10 Pclass
Sex
SibSp
5
www.youtube.com/carvalhoribeiro