一文帶你搭建簡單的酒店推薦系統

阿新 • • 發佈：2019-01-09

1. 資料

資料是匿名使用者的，並且所有欄位都是數字格式。資料可以在Kaggle中下載，train.csv中記錄使用者的行為，destinations.csv包含了使用者的酒店資訊。

import datetime
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.pipeline import make_pipeline
from sklearn import preprocessing
from sklearn.preprocessing import StandardScaler
from sklearn import svm

為了能夠在本地執行，我們隨機選取了1%的資料，但仍然有24179條資料。

df = pd.read_csv('train.csv.gz', sep=',').dropna()
dest = pd.read_csv('destinations.csv.gz')
df = df.sample(frac=0.01, random_state=99)
df.shape

輸出：(241179, 24)

2. 探索性分析

該系統的目的是要根據使用者的搜尋資訊，預測使用者將會預定哪種旅館。總共有100種。換言之，我們是要處理一個100分類問題。

plt.figure(figsize=(12, 6))
sns.distplot(df['hotel_cluster'])

可以看出每個類的分佈很均勻。

3. 特徵工程

Checkin和checkout列的資料是時間格式的資料，不能直接使用。我們將從中提取出年份和月份。通過定義一個函式取抽取，並將他們合併到destination.csv中。

from datetime import datetime
def get_year(x):
    if x is not None and type(x) is not float:
        try:
            return datetime.strptime(x, '%Y-%m-%d').year
        except ValueError:
            return datetime.strptime(x, '%Y-%m-%d %H:%M:%S').year
    else:
        return 2013
    pass
def get_month(x):
    if x is not None and type(x) is not float:
        try:
            return datetime.strptime(x, '%Y-%m-%d').month
        except:
            return datetime.strptime(x, '%Y-%m-%d %H:%M:%S').month
    else:
        return 1
    pass

def left_merge_dataset(left_dframe, right_dframe, merge_column):
    return pd.merge(left_dframe, right_dframe, on=merge_column, how='left')

處理時間格式的列：

df['date_time_year'] = pd.Series(df.date_time, index = df.index)
df['date_time_month'] = pd.Series(df.date_time, index = df.index)
from datetime import datetime
df.date_time_year = df.date_time_year.apply(lambda x: get_year(x))
df.date_time_month = df.date_time_month.apply(lambda x: get_month(x))
del df['date_time']

處理srch_ci列：

df['srch_ci_year'] = pd.Series(df.srch_ci, index=df.index)
df['srch_ci_month'] = pd.Series(df.srch_ci, index=df.index)


# convert year & months to int
df.srch_ci_year = df.srch_ci_year.apply(lambda x: get_year(x))
df.srch_ci_month = df.srch_ci_month.apply(lambda x: get_month(x))
# remove the srch_ci column
del df['srch_ci']

處理srch_co列：

df['srch_co_year'] = pd.Series(df.srch_co, index=df.index)
df['srch_co_month'] = pd.Series(df.srch_co, index=df.index)
# convert year & months to int
df.srch_co_year = df.srch_co_year.apply(lambda x: get_year(x))
df.srch_co_month = df.srch_co_month.apply(lambda x: get_month(x))
# remove the srch_co column
del df['srch_co']

4. 初步分析

在建立了一些新列和去除一些無用的列後，我們想要知道每一列跟類標是否有線性關係。這可以讓我們更加關注一些特定的特徵。

df.corr()["hotel_cluster"].sort_values()

可以看出所有的列都基本跟類標沒什麼線性關係。這意味著剛才的那些方法對這個問題並不合適。

5. 策略

在快速的進行谷歌搜尋之後，我們不難發現將目的地、旅館國家、旅館超市結合起來能夠更加準確的幫助我們找到對應的類標。

pieces = [df.groupby(['srch_destination_id','hotel_country','hotel_market','hotel_cluster'])['is_booking'].agg(['sum','count'])]
agg = pd.concat(pieces).groupby(level=[0,1,2,3]).sum()
agg.dropna(inplace=True)
agg.head()

agg['sum_and_cnt'] = 0.85*agg['sum'] + 0.15*agg['count']
agg = agg.groupby(level=[0,1,2]).apply(lambda x: x.astype(float)/x.sum())
agg.reset_index(inplace=True)
agg.head()

agg_pivot = agg.pivot_table(index=['srch_destination_id','hotel_country','hotel_market'], columns='hotel_cluster', values='sum_and_cnt').reset_index()
agg_pivot.head()

df = pd.merge(df, dest, how='left', on='srch_destination_id')
df = pd.merge(df, agg_pivot, how='left', on=['srch_destination_id','hotel_country','hotel_market'])
df.fillna(0, inplace=True)
df.shape

輸出：(241179, 276)

6. 實現演算法

我們只對預定的樣本有興趣：

df = df.loc[df['is_booking'] == 1]

得到特徵和類標:

X = df.drop(['user_id', 'hotel_cluster', 'is_booking'], axis=1)
y = df.hotel_cluster

樸素貝葉斯：

from sklearn.naive_bayes import GaussianNB
clf = make_pipeline(preprocessing.StandardScaler(), GaussianNB(priors=None))
np.mean(cross_val_score(clf, X, y, cv=10))

0.10347912437041926

KNN：

from sklearn.neighbors import KNeighborsClassifier
clf = make_pipeline(preprocessing.StandardScaler(), KNeighborsClassifier(n_neighbors=5))
np.mean(cross_val_score(clf, X, y, cv=10, scoring='accuracy'))

0.25631461834732266

隨機森林：

clf = make_pipeline(preprocessing.StandardScaler(), RandomForestClassifier(n_estimators=273,max_depth=10,random_state=0))
np.mean(cross_val_score(clf, X, y, cv=10))

0.24865023372782996

多分類邏輯迴歸：

from sklearn.linear_model import LogisticRegression
clf = make_pipeline(preprocessing.StandardScaler(), LogisticRegression(multi_class='ovr'))
np.mean(cross_val_score(clf, X, y, cv=10))

0.30445543572367767
支援向量機：很耗時，但是效果更好。

from sklearn import svm
clf = make_pipeline(preprocessing.StandardScaler(), svm.SVC(decision_function_shape='ovo'))
np.mean(cross_val_score(clf, X, y, cv=10))

0.3228727137315005

看起來我們需要做更多的特徵工程去優化結果。接下來將會進一步調優。

轉自：磐創AI

一文帶你搭建簡單的酒店推薦系統

1. 資料資料是匿名使用者的，並且所有欄位都是數字格式。資料可以在Kaggle中下載，train.csv中記錄使用者的行為，destinations.csv包含了使用者的酒店資訊。 import datetime import pandas as pd import numpy

一文帶你深度解析騰訊雲直播答題方案

exc com erp 同學 col 測試的確影響 cep 歡迎大家前往雲+社區，獲取更多騰訊海量技術實踐幹貨哦~ 作者：騰訊視頻雲進入2018年最火的新鮮事物無疑就是“直播答題”了，動輒上百萬的獎金更是吸引了大量用戶的參與。一場直播動輒幾百萬的獎金，每人可以分到

一文帶你了解激光雷達重要指標及參數

因此一個 https 速度 .com p s 展示 jpg left 博客轉載自：https://www.leiphone.com/news/201801/oySuWNzftbNrWwpv.html 雷鋒網(公眾號：雷鋒網)按：本文作者SLAMTEC（思嵐科技公號slam

一文帶你吃透執行緒池

微信公眾號：[Amos部落格] 內容目錄 TreadPoolexecutor原始碼解析類關係圖 Executor介面 ExecutorService介面 AbstractExecutorService 成員變數

一文帶你快速瞭解最火的數字經濟（大資料、人工智慧等都有）

人工智慧行業應用加速（暴富機會由“網際網路+”轉向AI+） “網際網路+”紅利已開發將盡，未來，新的暴富紅利將由“人工智慧”接棒。從產業演進看，科技巨頭正加速全球化併購，打造AI生態閉環，開源化也將成為全球性趨勢。開源化使得人工智慧的行業運用門檻急遽降低，未來幾年將迎來人工智慧行業應用浪潮。 2

某高校計算機程式設計教授教你如何快速入門python，一文帶你進入程式設計

如何快速入門Python 學習任何一門語言都是從入門(1年左右)，通過不間斷練習達到熟練水準(3到5年)，少數人最終能精通語言，成為執牛耳者，他們是金字塔的最頂層。雖然萬事開頭難，但好的開始是成功的一半，今天這篇文章就來談談如何開始入門 Python。只要方向對了，就不怕路遠。設定目標

一文帶你學會使用YOLO及Opencv完成影象及視訊流目標檢測（上）|附原始碼

計算機視覺領域中，目標檢測一直是工業應用上比較熱門且成熟的應用領域，比如人臉識別、行人檢測等，國內的曠視科技、商湯科技等公司在該領域佔據行業領先地位。相對於影象分類任務而言，目標檢測會更加複雜一些，不僅需要知道這是哪一類影象，而且要知道影象中所包含的內容有什麼及其在影象中的位置，因此，其工業應用比較廣泛。那麼

一文帶你學會使用YOLO及Opencv完成圖像及視頻流目標檢測（上）|附源碼

目錄 aliyun sele 分數 connected 出了 man 領域 turn 計算機視覺領域中，目標檢測一直是工業應用上比較熱門且成熟的應用領域，比如人臉識別、行人檢測等，國內的曠視科技、商湯科技等公司在該領域占據行業領先地位。相對於圖像分類任務而言，目標檢測會更加

一文帶你瞭解求職面試那些名詞（乾貨）

喬兄剛剛經歷了19秋招，收穫了百度offer，馬上要迎來了19春招，有很多公眾號的粉絲經常會問今年不是2018年嗎，你咋就已經完成了2018校招了？由於被很多人經常問起，下面喬兄給大家普及一下跟校招相關的名詞。現在時間是北京時間 2018.11.15，請務必根據現在的時間去推測你的情況。 201

還沒寫過爬蟲的小白點進來，一文帶你入門python爬蟲（小白福利）

入門準備工作需要準備的東西： Python、scrapy、一個IDE或者隨便什麼文字編輯工具。隨便建一個工作目錄，然後用命令列建立一個工程，工程名為miao，可以替換為你喜歡的名字。 scrapy startproject miao 隨後你會得到如下的一個由scrapy建立

一文帶你瞭解 Raft 一致性協議的關鍵點

此文已由作者孫建良授權網易雲社群釋出。歡迎訪問網易雲社群，瞭解更多網易技術產品運營經驗。 Raft 協議的釋出，對分散式行業是一大福音，雖然在核心協議上基本都是師繼 Paxos 祖師爺（lamport）的精髓，基於多數派的協議。但是 Raft 一致性協議的貢獻在於，定義了可易於實現的一致性協議

一文帶你看懂卷積神經網路(CNN)讓你意想不到的10創新idea

全文摘要卷積神經網路(CNN)可以說是深度學習發展的一個縮影，特別是現在在計算機視覺方面已經得到了非常成熟的應用，在目標檢測、目標追蹤等方面也是獨領風騷，本文將講述卷積神經網路近些年來的發展歷程，以及它到底創新在什麼地方。本文略長，看完大約3

slam是什麼意思？一文帶你讀懂SLAM

SLAM是Simultaneous localization and mapping縮寫，意為“同步定位與建圖”，主要用於解決機器人在未知環境運動時的定位與地圖構建問題，為了讓大家更多的瞭解SLAM，以下將從SLAM的應用領域、SLAM框架、SLAM分類（基於感測器的SLAM分類）

訓練的神經網路不工作？一文帶你跨過這37個坑

近日，Slav Ivanov 在 Medium 上發表了一篇題為《37 Reasons why your Neural Network is not working》的文章，從四個方面（資料集、資料歸一化／增強、實現、訓練），對自己長久以來的神經網路除錯經驗做了 37 條總結，並穿插了不少出色

從能做什麽到如何去做，一文帶你快速掌握Python編程基礎與實戰

選擇結構好處過濾類和對象最重要的既然項目能力提升 for語句摘要：Python語言的教程雖然隨處可見，但是忙於日常業務/學習的你或許：一直想要“找個時間學一點”，但是又不知道該從何下手？本文將從Python能做什麽，如何學習Python以及Python的基

從原始碼入手，一文帶你讀懂Spring AOP面向切面程式設計

基於這兩者的實現上，這次來探索下Spring的AOP原理。雖然AOP是基於Spring容器和動態代理，但不瞭解這兩者原理也絲毫不影響理解AOP的原理實現，因為大家起碼都會用。 AOP，Aspect Oriented Programming，面向切面程式設計。在很多

一文帶你看懂cookie，面試前端不用愁

本文由雲+社群發表在前端面試中，有一個必問的問題：請你談談cookie和localStorage有什麼區別啊？ localStorage是H5中的一種瀏覽器本地儲存方式，而實際上，cookie本身並不是用來做伺服器儲存的。但在 localStorage 出現之前，cookie被濫用當做了儲存工具，什麼資

一文帶你瞭解程序

現代計算機體系結構馮·諾依曼結構要了解程序的概念得先從計算機的體系結構說起，首先了解一些世界上用得最多的計算機體系結構：馮·諾依曼結構(還有其他的計算機體系結構：如哈佛結構) 馮·諾曼結構處理器具有以下幾個特點：必須有一個儲存器；必須有一個控制器；必須有一

實用 | 一文帶你菠菜合買平臺出租零基礎入行深度學習

深度菠菜合買平臺出租聯絡方式：QQ：2747044651【征途原始碼論壇http://t.cn/Eyb4XkK】學習存在一定的門檻，這是必然的，並不是網上說的僅僅成為一個“調包狹”。你可能是結合一些實際的業務場景，需要復現一些模型，甚至自己設計一些模型，所以需要具備一定的數學、英語、程式設計等等能力。 &n

一文帶你理解Java中Lock的實現原理

當多個執行緒需要訪問某個公共資源的時候，我們知道需要通過加鎖來保證資源的訪問不會出問題。java提供了兩種方式來加鎖，一種是關鍵字：synchronized，一種是concurrent包下的lock鎖。synchronized是java底層支援的，而concurrent包

一文帶你搭建簡單的酒店推薦系統

1. 資料

2. 探索性分析

3. 特徵工程

4. 初步分析

5. 策略

6. 實現演算法

相關推薦