Você está na página 1de 36

BANGKOK

Previsão dos Preços em


Reservas de Hotéis
Equipa do Projeto

GUILHERME MARIANA SEBASTIÃO WEIDMAM


DUARTE SILVESTRE FONTE LELES
Metodologia CRISP-DM
Metodologia CRISP-DM

Business Data Data


Modeling Evaluation Deployment
Understanding Understanding Preparation
Business Understanding
Website Booking

Milhares de Estadias

Bom Preço e Boa Qualidade

Sistema de Avaliação do Preço

Escolha de Informação/Variáveis
Benefício para o Negócio

AUMENTAR A LEALDADE
DOS CLIENTES
Ajudar os clientes a planearem
melhor as suas viagens de forma
a economizarem MAXIMIZAR A COMPETITIVADE
DOS PARCEIROS
Ajudar os parceiros a tomar decisões
estratégicas com base nas métricas
que mais influenciam o preço
Data Understanding
Variáveis Extraídas

Score_data Price_data Distance_to_Center Breakfast

Estrelas Reviews_qty Only_x_left Free_cancel

Adicionalmente, extraímos a variável Hotel_Name, apenas com o intuito de identificarmos as entradas duplicadas.
Limpeza inicial
Remoção de Dados Duplicados
01 Ao extrair as variáveis do Booking, houve hóteis que foram
extraídos várias vezes por se encontrarem em várias páginas.

Remoção de Dados com Valores Não Atribuídos


02 Existiam hóteis que tinham pelo menos uma variável sem valor,
pelo que optámos por remover todos esses casos.
Data Preparation
Data Preparation

Remoção de Outliers Gráfico de Dispersão

01 Removemos os outliers severos para as


variáveis preço e reviews e removemos 03 Os hotéis com um preço mais elevado
têm tendência a ter também scores
todos os outliers das variáveis score e mais elevados, assim como quanto
distância ao centro. mais alto o score maior é o número de
reviews.

Correlação de Pearson Normalização


As variáveis que apresentam uma
maior correlação entre si são o preço e 02 Técnica de normalização mínimo máximo para
que os valores das variáveis assumissem 04
o número de estrelas. A 2ª maior valores entre 0 e 1, de maneira a conseguir
correlação é entre o preço e o score. aplicar os modelos estudados.
Dataset Final

655 Observações
Modeling
Regressão Linear Múltipla

Aplicar a Regressão Estudo dos p-values


Dividir os dados em
Linear Múltipla com associados a cada
dois conjuntos: Treino
as variáveis variável e avaliação
e Teste;
desejadas; do R-squared;

Aceitar o resultado ou Prever os valores do


excluir/transformar Avaliar o RMSE e o conjunto de teste e
variáveis de modo a RRMSE; comparar com os
melhorá-lo. valores reais;
Regressão Linear Múltipla

P-values
acima do
threshold de
95%
Regressão Linear Múltipla
Transformação de variáveis

DUMMIES

ESTRELAS DISTANCE_TO_CENTER SCORE_DATA

{1, 2, 3, 4, 5} {0 a 2km, 2 a 5km, 5 a {7.0 ou menos, 7.0 a 8.0,


10km, 10km ou mais} 8.0 a 9.0, 9.0 ou mais}
O MELHOR
MODELO LMR

Regressão com breakfast, score_data e dummy nas Estrelas e


distance_to_center;
80% dos dados no conjunto treino e 20% no conjunto teste, sem
reamostragem.

RMSE: 0.1373278 | RRMSE: 40.64606

Algumas Vantagens das LMRs


Interpretação intuitiva, facilidade em categorizar as variáveis e em
perceber a sua capacidade explicativa concreta;
Árvores de decisão

Contrução da árvore
Prever os valores do
segundo o modelo de
Dividir os dados em dois conjunto de teste e
CART e recorrendo à poda
conjuntos: Treino e Teste; comparar com os valores
e a hiperparâmetros de
reais;
forma a otimizar o modelo;

Tentativas de melhorar o
Avaliar o RMSE e o
modelo através de
RRMSE;
reamostragem;
Árvores de decisão
Sem Poda

CART Com Poda   Profundidade

  Mínimo de
observações para que
Otimizado
ocorra uma divisão
nos nós internos

 Mínimo de
observações nos nós
terminais
Árvores de decisão
REAMOSTRAGEM

Bagging Boosting Random Forest

Nºpreditores
Nº de Taxa de
escolhidos
reamostragens aprendizagem
aleatoriamente

 Nº mínimo de
Nº de árvores
obsevações por
criadas

Nº mínimo de
Nº de árvores
observações nos
geradas
nós terminais
Árvore com
Bagging

Árvore com Bagging


80% dos dados no conjunto treino e 20% no conjunto teste, com um
número de reamostragens de bootstrapping de 200

RMSE:0.12469  | RRMSE: 53.799

Algumas Vantagens do Bagging


O bagging traz vantagens quando o modelo sofre de variância
elevada ou de overfitting 
https://www.kdnuggets.com/2019/09/ensemble-
learning.html
Rede Neuronal Artificial

TAFNER, 1998
Rede Neuronal Artificial
Gerar o erro do modelo
da Rede Neuronal e
Dividir os dados em dois
Definir a Rede Neuronal verificar os pesos entre
conjuntos: Treino e
e os seus parâmetros; os dados de entrada, as
Teste;
camadas ocultas e o
resultado;

Criar a previsão e
Calcular o RMSE e o eliminar a variável
Gerar a previsão;
RMSE Relativo; dependente do conjunto
teste;

Obter previsões com os


Desnormalizar os dados; dados desnormalizados
e comparar resultados.
Rede Neuronal Artifical

• Default da função neuronalnet;


• Foram realizadas 46 tentativas;
• Tem duas grandes vantagens: é mais rápida e
não precisamos definir os parâmetros livres.

Resilient Backpropagation Backpropagation com ajuste

• Calcula o "custo" e "perda" de forma a se ajustar;


• Obrigatoriedade na definição da tx. de
aprendizagem o que pode deixá-la mais lenta;
• Foram realizadas 16 tentativas
O MELHOR
MODELO RNA

Algoritmo “backprop” e tx. de aprendizagem 0.001


90% dos dados no conjunto treino e 10% no conjunto teste, com
duas camadas ocultas com 2 e 1 neurónios respetivamente.

RMSE: 0.1099978 | RRMSE: 41.55957

Algumas Vantagens das RNAs


Lida com relacionamentos não lineares e complexos; conseguem
aprender por si mesmas
Evaluation
Evaluation
Deployment
Proposta de Implementação

COMO FUNCIONA O BOOKING


NOVA PLATAFORMA: ACONSELHA?
BOOKING ACONSELHA
Fornecer conselhos aos clientes de
forma a ajudá-los a economizar algum
Implementação de uma
dinheiro ao sugerir novas datas para a
plataforma de aconselhamento
sua viagem e/ou indicar se a tendência
para os nossos clientes e para
é de que o preços subam
os hotéis parceiros
Fornecer conselhos aos hotéis
parceiros no sentido de se tentarem
ajustar ao mercado para maximizar o
seu desempenho
Obrigado!
Árvore através
do modelo CART

Modelo Cart
80% dos dados no conjunto treino e 20% no conjunto teste

RMSE: 0.13965 | RRMSE: 55.782

Algumas Vantagens das Árvores de decisão


Fácil de interpretação e permite identificar quais as variáveis mais
significativas no conjunto de dados
Modelo CART
com Poda

Modelo Cart com Poda


80% dos dados no conjunto treino e 20% no conjunto teste

RMSE: 0.14084| RRMSE: 56.257

Algumas Vantagens das Árvores de decisão


Fácil de interpretação e permite identificar quais as variáveis mais
significativas no conjunto de dados
Modelo CART
Otimizado

Modelo Cart
80% dos dados no conjunto treino e 20% no conjunto teste, com
validação cruzada k=10, profundidade 5, com mínimo de observações
por nó para que ocorra uma divisão nos nós internos de 60 e com um
mínimo de observações nos nós terminais de 45

RMSE: 0.13697 | RRMSE: 54.606

Algumas Vantagens das Árvores de decisão


Fácil de interpretação e permite identificar quais as variáveis mais
significativas no conjunto de dados
Árvore com
Boosting

Árvore com Boosting


80% dos dados no conjunto treino e 20% no conjunto teste, com ma
profundidade máxima de 2, uma taxa de aprendizagem de 0,005,
com 300 árvores criadas e um número mínimo de observações nos
nós terminais de 10

RMSE: 0.14218 | RRMSE: 56.790

https://towardsdatascience.com/
gradient-boosted-decision-trees-
Algumas Vantagens do Boosting
explained-9259bd8205af
Boosting ou Gradient Boosting é uma tentativa de melhorar a
previsão diminuindo tanto a variância como o bias
Árvore com
Random Forest

Árvore com Random Forest


80% dos dados no conjunto treino e 20% no conjunto teste, com 6
preditores escolhidos aleatoriamente com um número mínimo de 9
obsevações por nó e com 1000 árvores geradas

RMSE: 0.13571 | RRMSE: 54.207

https://
towardsdatascience.com/
Algumas Vantagens do Random Forest
gradient-boosted-decision-
Capacidade de lidar bem com dados de alta dimensionalidade e de
se dar bem com a ausência de valores
trees-explained-9259bd8205af

Você também pode gostar