PowerPointMTCD Final

BANGKOK
Previsão dos Preços em

Reservas de Hotéis
Equipa do Projeto
GUILHERME MARIANA SEBASTIÃO WEIDMAM

DUARTE SILVESTRE FONTE LELES
Metodologia CRISP-DM
Metodologia CRISP-DM
Business Data Data

Modeling Evaluation Deployment
Understanding Understanding Preparation
Business Understanding
Website Booking
Milhares de Estadias
Bom Preço e Boa Qualidade
Sistema de Avaliação do Preço
Escolha de Informação/Variáveis
Benefício para o Negócio
AUMENTAR A LEALDADE
DOS CLIENTES
Ajudar os clientes a planearem
melhor as suas viagens de forma
a economizarem MAXIMIZAR A COMPETITIVADE
DOS PARCEIROS
Ajudar os parceiros a tomar decisões
estratégicas com base nas métricas
que mais influenciam o preço
Data Understanding
Variáveis Extraídas
Score_data Price_data Distance_to_Center Breakfast
Estrelas Reviews_qty Only_x_left Free_cancel
Adicionalmente, extraímos a variável Hotel_Name, apenas com o intuito de identificarmos as entradas duplicadas.
Limpeza inicial
Remoção de Dados Duplicados
01 Ao extrair as variáveis do Booking, houve hóteis que foram
extraídos várias vezes por se encontrarem em várias páginas.
Remoção de Dados com Valores Não Atribuídos

02 Existiam hóteis que tinham pelo menos uma variável sem valor,
pelo que optámos por remover todos esses casos.
Data Preparation
Data Preparation
Remoção de Outliers Gráfico de Dispersão
01 Removemos os outliers severos para as

variáveis preço e reviews e removemos 03 Os hotéis com um preço mais elevado
têm tendência a ter também scores
todos os outliers das variáveis score e mais elevados, assim como quanto
distância ao centro. mais alto o score maior é o número de
reviews.
Correlação de Pearson Normalização

As variáveis que apresentam uma
maior correlação entre si são o preço e 02 Técnica de normalização mínimo máximo para
que os valores das variáveis assumissem 04
o número de estrelas. A 2ª maior valores entre 0 e 1, de maneira a conseguir
correlação é entre o preço e o score. aplicar os modelos estudados.
Dataset Final
655 Observações
Modeling
Regressão Linear Múltipla
Aplicar a Regressão Estudo dos p-values

Dividir os dados em
Linear Múltipla com associados a cada
dois conjuntos: Treino
as variáveis variável e avaliação
e Teste;
desejadas; do R-squared;
Aceitar o resultado ou Prever os valores do

excluir/transformar Avaliar o RMSE e o conjunto de teste e
variáveis de modo a RRMSE; comparar com os
melhorá-lo. valores reais;
P-values
acima do
threshold de
95%
Transformação de variáveis
DUMMIES
ESTRELAS DISTANCE_TO_CENTER SCORE_DATA
{1, 2, 3, 4, 5} {0 a 2km, 2 a 5km, 5 a {7.0 ou menos, 7.0 a 8.0,

10km, 10km ou mais} 8.0 a 9.0, 9.0 ou mais}
O MELHOR
MODELO LMR
Regressão com breakfast, score_data e dummy nas Estrelas e

distance_to_center;
80% dos dados no conjunto treino e 20% no conjunto teste, sem
reamostragem.
RMSE: 0.1373278 | RRMSE: 40.64606
Algumas Vantagens das LMRs

Interpretação intuitiva, facilidade em categorizar as variáveis e em
perceber a sua capacidade explicativa concreta;
Árvores de decisão
Contrução da árvore
Prever os valores do
segundo o modelo de
Dividir os dados em dois conjunto de teste e
CART e recorrendo à poda
conjuntos: Treino e Teste; comparar com os valores
e a hiperparâmetros de
reais;
forma a otimizar o modelo;
Tentativas de melhorar o
Avaliar o RMSE e o
modelo através de
RRMSE;
reamostragem;
Sem Poda
CART Com Poda Profundidade
Mínimo de
observações para que
Otimizado
ocorra uma divisão
nos nós internos
Mínimo de
observações nos nós
terminais
REAMOSTRAGEM
Bagging Boosting Random Forest
Nºpreditores
Nº de Taxa de
escolhidos
reamostragens aprendizagem
aleatoriamente
Nº mínimo de
Nº de árvores
obsevações por
criadas
nó
Nº mínimo de
Nº de árvores
observações nos
geradas
nós terminais
Árvore com
Bagging
Árvore com Bagging

80% dos dados no conjunto treino e 20% no conjunto teste, com um
número de reamostragens de bootstrapping de 200
RMSE:0.12469 | RRMSE: 53.799
Algumas Vantagens do Bagging

O bagging traz vantagens quando o modelo sofre de variância
elevada ou de overfitting
https://www.kdnuggets.com/2019/09/ensemble-
learning.html
Rede Neuronal Artificial
TAFNER, 1998
Rede Neuronal Artificial
Gerar o erro do modelo
da Rede Neuronal e
Dividir os dados em dois
Definir a Rede Neuronal verificar os pesos entre
conjuntos: Treino e
e os seus parâmetros; os dados de entrada, as
Teste;
camadas ocultas e o
resultado;
Criar a previsão e
Calcular o RMSE e o eliminar a variável
Gerar a previsão;
RMSE Relativo; dependente do conjunto
teste;
Obter previsões com os

Desnormalizar os dados; dados desnormalizados
e comparar resultados.
Rede Neuronal Artifical
• Default da função neuronalnet;

• Foram realizadas 46 tentativas;
• Tem duas grandes vantagens: é mais rápida e
não precisamos definir os parâmetros livres.
Resilient Backpropagation Backpropagation com ajuste
• Calcula o "custo" e "perda" de forma a se ajustar;

• Obrigatoriedade na definição da tx. de
aprendizagem o que pode deixá-la mais lenta;
• Foram realizadas 16 tentativas
O MELHOR
MODELO RNA
Algoritmo “backprop” e tx. de aprendizagem 0.001

90% dos dados no conjunto treino e 10% no conjunto teste, com
duas camadas ocultas com 2 e 1 neurónios respetivamente.
RMSE: 0.1099978 | RRMSE: 41.55957
Algumas Vantagens das RNAs

Lida com relacionamentos não lineares e complexos; conseguem
aprender por si mesmas
Evaluation
Evaluation
Deployment
Proposta de Implementação
COMO FUNCIONA O BOOKING

NOVA PLATAFORMA: ACONSELHA?
BOOKING ACONSELHA
Fornecer conselhos aos clientes de
forma a ajudá-los a economizar algum
Implementação de uma
dinheiro ao sugerir novas datas para a
plataforma de aconselhamento
sua viagem e/ou indicar se a tendência
para os nossos clientes e para
é de que o preços subam
os hotéis parceiros
Fornecer conselhos aos hotéis
parceiros no sentido de se tentarem
ajustar ao mercado para maximizar o
seu desempenho
Obrigado!
Árvore através
do modelo CART
Modelo Cart
80% dos dados no conjunto treino e 20% no conjunto teste
RMSE: 0.13965 | RRMSE: 55.782
Algumas Vantagens das Árvores de decisão

Fácil de interpretação e permite identificar quais as variáveis mais
significativas no conjunto de dados
Modelo CART
com Poda
Modelo Cart com Poda

80% dos dados no conjunto treino e 20% no conjunto teste
RMSE: 0.14084| RRMSE: 56.257

Modelo CART
Otimizado
Modelo Cart
80% dos dados no conjunto treino e 20% no conjunto teste, com
validação cruzada k=10, profundidade 5, com mínimo de observações
por nó para que ocorra uma divisão nos nós internos de 60 e com um
mínimo de observações nos nós terminais de 45
RMSE: 0.13697 | RRMSE: 54.606

Árvore com
Boosting
Árvore com Boosting

80% dos dados no conjunto treino e 20% no conjunto teste, com ma
profundidade máxima de 2, uma taxa de aprendizagem de 0,005,
com 300 árvores criadas e um número mínimo de observações nos
nós terminais de 10
RMSE: 0.14218 | RRMSE: 56.790
https://towardsdatascience.com/
gradient-boosted-decision-trees-
Algumas Vantagens do Boosting
explained-9259bd8205af
Boosting ou Gradient Boosting é uma tentativa de melhorar a
previsão diminuindo tanto a variância como o bias
Árvore com
Random Forest
Árvore com Random Forest

80% dos dados no conjunto treino e 20% no conjunto teste, com 6
preditores escolhidos aleatoriamente com um número mínimo de 9
obsevações por nó e com 1000 árvores geradas
RMSE: 0.13571 | RRMSE: 54.207
https://
towardsdatascience.com/
Algumas Vantagens do Random Forest
gradient-boosted-decision-
Capacidade de lidar bem com dados de alta dimensionalidade e de
se dar bem com a ausência de valores
trees-explained-9259bd8205af

PowerPointMTCD Final

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

PowerPointMTCD Final

Enviado por

Direitos autorais:

Formatos disponíveis

BANGKOK

Previsão dos Preços em

GUILHERME MARIANA SEBASTIÃO WEIDMAM

Business Data Data

Bom Preço e Boa Qualidade

Sistema de Avaliação do Preço

Score_data Price_data Distance_to_Center Breakfast

Estrelas Reviews_qty Only_x_left Free_cancel

Remoção de Dados com Valores Não Atribuídos

Remoção de Outliers Gráfico de Dispersão

01 Removemos os outliers severos para as

Correlação de Pearson Normalização

Aplicar a Regressão Estudo dos p-values

Aceitar o resultado ou Prever os valores do

ESTRELAS DISTANCE_TO_CENTER SCORE_DATA

{1, 2, 3, 4, 5} {0 a 2km, 2 a 5km, 5 a {7.0 ou menos, 7.0 a 8.0,

Regressão com breakfast, score_data e dummy nas Estrelas e

RMSE: 0.1373278 | RRMSE: 40.64606

Algumas Vantagens das LMRs

CART Com Poda Profundidade

Bagging Boosting Random Forest

Árvore com Bagging

RMSE:0.12469 | RRMSE: 53.799

Algumas Vantagens do Bagging

Obter previsões com os

• Default da função neuronalnet;

Resilient Backpropagation Backpropagation com ajuste

• Calcula o "custo" e "perda" de forma a se ajustar;

Algoritmo “backprop” e tx. de aprendizagem 0.001

RMSE: 0.1099978 | RRMSE: 41.55957

Algumas Vantagens das RNAs

COMO FUNCIONA O BOOKING

RMSE: 0.13965 | RRMSE: 55.782

Algumas Vantagens das Árvores de decisão

Modelo Cart com Poda

RMSE: 0.14084| RRMSE: 56.257

Algumas Vantagens das Árvores de decisão

RMSE: 0.13697 | RRMSE: 54.606

Algumas Vantagens das Árvores de decisão

Árvore com Boosting

RMSE: 0.14218 | RRMSE: 56.790

Árvore com Random Forest

RMSE: 0.13571 | RRMSE: 54.207

Você também pode gostar