Escolar Documentos
Profissional Documentos
Cultura Documentos
Milhares de Estadias
Escolha de Informação/Variáveis
Benefício para o Negócio
AUMENTAR A LEALDADE
DOS CLIENTES
Ajudar os clientes a planearem
melhor as suas viagens de forma
a economizarem MAXIMIZAR A COMPETITIVADE
DOS PARCEIROS
Ajudar os parceiros a tomar decisões
estratégicas com base nas métricas
que mais influenciam o preço
Data Understanding
Variáveis Extraídas
Adicionalmente, extraímos a variável Hotel_Name, apenas com o intuito de identificarmos as entradas duplicadas.
Limpeza inicial
Remoção de Dados Duplicados
01 Ao extrair as variáveis do Booking, houve hóteis que foram
extraídos várias vezes por se encontrarem em várias páginas.
655 Observações
Modeling
Regressão Linear Múltipla
P-values
acima do
threshold de
95%
Regressão Linear Múltipla
Transformação de variáveis
DUMMIES
Contrução da árvore
Prever os valores do
segundo o modelo de
Dividir os dados em dois conjunto de teste e
CART e recorrendo à poda
conjuntos: Treino e Teste; comparar com os valores
e a hiperparâmetros de
reais;
forma a otimizar o modelo;
Tentativas de melhorar o
Avaliar o RMSE e o
modelo através de
RRMSE;
reamostragem;
Árvores de decisão
Sem Poda
Mínimo de
observações para que
Otimizado
ocorra uma divisão
nos nós internos
Mínimo de
observações nos nós
terminais
Árvores de decisão
REAMOSTRAGEM
Nºpreditores
Nº de Taxa de
escolhidos
reamostragens aprendizagem
aleatoriamente
Nº mínimo de
Nº de árvores
obsevações por
criadas
nó
Nº mínimo de
Nº de árvores
observações nos
geradas
nós terminais
Árvore com
Bagging
TAFNER, 1998
Rede Neuronal Artificial
Gerar o erro do modelo
da Rede Neuronal e
Dividir os dados em dois
Definir a Rede Neuronal verificar os pesos entre
conjuntos: Treino e
e os seus parâmetros; os dados de entrada, as
Teste;
camadas ocultas e o
resultado;
Criar a previsão e
Calcular o RMSE e o eliminar a variável
Gerar a previsão;
RMSE Relativo; dependente do conjunto
teste;
Modelo Cart
80% dos dados no conjunto treino e 20% no conjunto teste
Modelo Cart
80% dos dados no conjunto treino e 20% no conjunto teste, com
validação cruzada k=10, profundidade 5, com mínimo de observações
por nó para que ocorra uma divisão nos nós internos de 60 e com um
mínimo de observações nos nós terminais de 45
https://towardsdatascience.com/
gradient-boosted-decision-trees-
Algumas Vantagens do Boosting
explained-9259bd8205af
Boosting ou Gradient Boosting é uma tentativa de melhorar a
previsão diminuindo tanto a variância como o bias
Árvore com
Random Forest
https://
towardsdatascience.com/
Algumas Vantagens do Random Forest
gradient-boosted-decision-
Capacidade de lidar bem com dados de alta dimensionalidade e de
se dar bem com a ausência de valores
trees-explained-9259bd8205af