從“馬蜂窩事件”看，投資人如何避免資料盡職調查背後的交易風險？

阿新 • • 發佈：2018-11-01

640?wx_fmt=png

來源：Career In 投行PEVC

本文約4400字，建議閱讀10分鐘。

本文列舉三個網際網路行業典型場景，幫助投資人對相關問題有一個更為感性的理解。

10月21日，一篇名為《估值175億的旅遊獨角獸，是一座殭屍和水軍構成的鬼城？》在社交網路廣為流傳，該篇文章作者乎睿資料團隊直指線上旅遊網站馬蜂窩存在點評大量造假的情況，包括從其他網站如大眾點評、攜程等抓取相關點評，及自建團隊撰寫虛擬點評。

根據馬蜂窩官網提供的資料，目前，馬蜂窩全站擁有超過2100萬條點評，是馬蜂窩對外展示的核心競爭力之一。如果乎睿資料團隊的指控被坐實，馬蜂窩一直以來強調的使用者PGC神話將被打破，或將嚴重影響這隻旅遊獨角獸的估值。

640?wx_fmt=jpeg

馬蜂窩官網提供的資料

馬蜂窩成立於2006年，創辦初期，馬蜂窩是一家讓旅行者分享遊記感受的旅遊攻略社群；2012年開始，馬蜂窩對積累下的旅遊資料進行結構化處理；2015年初，馬蜂窩釋出自由行戰略，開始嘗試“內容+交易”的商業閉環。

回顧馬蜂窩的發展歷程，無論是最初的旅遊攻略社群定位，還是如今正在打造的商業閉環，內容都是馬蜂窩區別於其他線上旅遊網站最大的競爭優勢之一。而馬蜂窩背後集聚了市場上最牛逼的一線PE和VC基金們。

2006年01月：螞蜂窩網站上線；

2010年03月：正式成立公司投入運營，註冊使用者數15萬；

2011年04月：上線首款APP客戶端旅行翻譯官；

2011年10月：獲得今日資本500萬美元A輪融資和200萬美元無息貸款；

2012年06月：開始商業化，半年收入超千萬，主要來自廣告及佣金分成；

2012年10月：註冊使用者數超過400萬，PC端使用者數在3年內增長40倍；攻略累計下載量6000萬次；

2013年04月：獲得啟明創投領投的1500萬美元B輪融資；

2014年06月：註冊會員數突破5000萬；

2015年02月：獲得高瓴資本、Coatue、CoBuilder、啟明創投的C輪融資，累計融資逾億美金。

2015年09月：螞蜂窩使用者數1億，其中80%的使用者來自移動端（螞蜂窩自由行APP）；月活躍使用者數達8000萬。

2017年12月：獲得鷗翎投資、美國泛大西洋資本集團、淡馬錫、元鈦長青基金、厚朴基金共同投資1.33億美元。

2018年8月17日：外媒報道稱，兩位知情人士透露，螞蜂窩希望在新一輪融資中籌集至多3億美元，此輪融資對該公司的估值定為20億至25億美元。

640?wx_fmt=jpeg

馬蜂窩醜聞事件不禁讓我們想起了前不久的紅芯瀏覽器事件。

在今年上半年的博鰲亞洲論壇期間，馬蜂窩聯合創始人、COO呂剛在接受騰訊《一線》專訪時便曾表態，在從內容切入交易的過程中，馬蜂窩的最大優勢在於之前幾年對社群的運營積累了大量資料，資料的積累非常重要，因為“內容是決策的依據”。

對資料結構化的處理幫助馬蜂窩推出交易平臺奠定了基礎，讓馬蜂窩擁有了更大的商業想象空間。

以旅遊攻略起家的馬蜂窩站內使用者PGC內容可以分為如下幾大類：

旅遊攻略（多為長圖文形式）；
使用者對旅遊目的地（包括景點、酒店、飯店、商場等旅行常見POI）的點評及問答；
交易類點評（對馬蜂窩商城內具體商品的評價）等。

此次乎睿資料團隊指控的物件主要指馬蜂窩使用者對旅遊目的地點評的真實性。

在馬蜂窩現行的商業邏輯下，經過前幾年對站內資料的結構化處理，目前，馬蜂窩能夠將旅行相關產品與內容進行較為細顆粒度的關聯，而內容在使用者做交易決策的過程中擁有很大影響力。

正因如此，高質量的內容生產者及內容是馬蜂窩的核心資產之一，馬蜂窩也在官網上列出了其擁有超過一億的旅行者及超2100萬的真實點評等資料。

但根據乎睿資料團隊提供的資訊，馬蜂窩2100萬條真實點評中，有1800萬條是通過機器人從點評、攜程等競爭對手那裡抄襲過來的；其在馬蜂窩上發現了7454個抄襲賬號，平均每個賬號從攜程、藝龍、美團、Agoda、Yelp上抄襲搬運了數千條點評，合計抄襲572萬條餐飲點評，1221萬條酒店點評，佔到馬蜂窩官網聲稱總點評數的85%。

另外，乎睿資料團隊表示，其在馬蜂窩的所有賬號中，刨除了7554個賬號後，選擇了1萬5千個最活躍賬號，發現這些賬號的活躍時間一致，與點評及攜程等網站相比，存在嚴重的不合理。

乎睿資料團隊總結稱，馬蜂窩的主流使用者是一群每天朝九晚五、在午晚飯以及週末幹正事、能夠同時出現在地球的不同地點，且可隨意切換身份的人。暗指馬蜂窩賬號造假。

640?wx_fmt=jpeg

近兩年，馬蜂窩由單純的旅遊攻略社群，轉變為一家集資料處理及交易服務於一體的線上旅遊公司，成功從內容環節切入交易。這一商業模式的建立，讓馬蜂窩獲得了資本青睞，去年年底，馬蜂窩完成了1.33億美元的D輪融資。隨後在春節假期及今年世界盃期間，馬蜂窩投放了大量廣告。呂剛曾對《一線》表示，馬蜂窩今年的主要任務是做大規模，年內暫不考慮上市問題。

然而此次乎睿資料團隊的公開指控直擊馬蜂窩要害，對此有旅遊行業資深人士認為，點評資料造假的真實狀況，關係著馬蜂窩這家公司到底是靠傳統商業模式——賣廣告活得好，還是因為交易做得好，抑或是因為點評數量引來的融資花不完活得好，這才是重點。

目前乎睿資料團隊對馬蜂窩點評造假的指控已經引發行業的廣泛關注，對於相關指控，馬蜂窩一位市場經理稱，“我們現在正在核實相關情況。我們正在等結果，然後將對媒體反饋。”

根據普華永道的資料盡職調查經驗顯示：在不斷演進的網路和資料技術背景下，應運而生的網際網路企業以其理念引領優勢、有別於傳統商業運作模式的業務整合能力以及市場覆蓋潛力，成為投資界的熱門標的。

不斷變化的市場環境與水漲船高的業績壓力，往往導致部分公司出現各種資料質量問題、甚至是資料造假或業績虛增的行為。傳統的資料盡職調查手段已不足以支援投資人在業績評估和投資風險揭示方面的需求。

投資人頭頂的達摩克利斯之劍

2018年，網際網路行業繼續成為投資者所關注的焦點，其中，網際網路及移動網際網路行業的投資金額依舊位居首位。

640?wx_fmt=jpeg

不幸的是，縱觀國內外各大新聞網站，因為企業資料問題被曝光而對企業形象帶來巨大影響的新聞不絕於耳；而網際網路行業由於其本身的業務特點，成為了資料質量問題的“重災區”。基於普華永道對過去3年相關行業盡職調查專案情況所做的統計，有65%以上的目標公司在業績統計指標方面存在問題。

640?wx_fmt=jpeg

網際網路企業估值及投資人踩過的“坑”

由於網際網路行業尚未形成通用的業績比較標準與完善的指標分析體系。且又處於未盈利的初創階段（有些甚至可能還沒有形成穩定的業務收入），投資人往往需要基於管理層提供的註冊使用者數、活躍使用者數（DAU/MAU）、轉化率或交易額（GMV）、業務增長預測資料對標的公司的商業價值和估值進行研究。因此，業務資料的準確性、合理性以及盡職調查過程中揭示的潛在風險因素和業務影響，將會對投資人的價值判斷和公司估值產生直接影響。

在一輪又一輪的網際網路狂潮下， “刷單”、“羊毛黨”、“養號”、“自衝”等新名詞也隨之出現，並且儼然成為了一個數據造假的“新產業”。根據我們的過往經驗，在短短几年間，這個“新產業”已經經歷了四次重大的“產業”升級。

640?wx_fmt=jpeg

新時代資料造假特徵及應對方法

隨著一次又一次的“升級完善”，如今在網際網路世界已經產生了一個 “堪稱完美”的造假體系。通過以下的比較可以看出這套造假體系如何“完美”：

640?wx_fmt=jpeg

由此可見，資料造假的傳統特徵被逐個突破，刷單與實際業務產生的資料特徵界限正在變得模糊。想通過傳統的資料盡職調查手段在運營資料中發現真相已經變得越來越難。

本篇我們將列舉網際網路行業的三個典型場景，以及針對行業新的變化趨勢，如何有效通過資料探勘、機器學習演算法看清資料背後所隱藏的交易風險。

場景一：

聚類演算法定位新型“羊毛黨”

在傳統B2C的商業模式中，交易資訊的流動是單向的，平臺上的使用者被清晰的分成買家和賣家。但在C2C或社交電商模式中，平臺使用者可以同時以買家或賣家的身份出現，從而產生了“迴圈交易”的可能性。

而這些迴圈交易中，可能存在著以獲取平臺交易補貼、優惠等“薅羊毛”為目的的異常迴圈交易。從投資人角度而言，這些異常的迴圈交易會拉高平臺真實GMV、交易量、使用者活躍等運營指標，從而對交易估值產生重大影響。

640?wx_fmt=jpeg

如上圖所示，我們可以通過引入機器學習聚類演算法方式，無需藉助已做出標記的訓練資料集 (x(1),y(1)),(x(2),y(2)),…,(x(m),y(m)) 來學習目標函式，用以對交易資料做出決策分界，而是直接針對未進行標記的交易資料集來進行優化迭代，形成聚類。

適用於海量交易資料的Clarans+演算法原理：

640?wx_fmt=jpeg

這種無監督學習方式基於PAM演算法增加樣本集抽取步驟，優化了模型效能，尤其適用於海量交易資料環境下，運用多種弱規則識別在單個規則下難以發現的可疑交易，提高識別準確度及效率，來有效區分正常或異常交易行為。

場景二：

通過社交網路演算法識別潛在欺詐使用者群體

對於P2P網貸平臺對於貸款使用者的貸前風控、貸後催收都是平臺能夠持續運營，不發生“爆雷”的關鍵。除了“假標自融”外，雖然不少平臺對貸款申請使用者做了基礎的風控稽核，但往往存在各種缺陷，導致騙貸、欺詐團伙有機可乘，逾期率上升並最終對平臺的資產質量產生顯著影響。

然而，這些風險往往有很強的隱蔽性，隨著時間推移，才會逐漸顯現。騙貸、欺詐的手段非常多樣，並不斷演進升級。通過更為高效的機器學習演算法，在盡調階段對相關風險的識別，可以有效規避投資人的風險。

640?wx_fmt=jpeg

通過社交網路分析演算法（SNA），研究節點（人）和節點關係（邊，也就是人與人之間的關係）的演算法，對節點關係梳理並形成聚類，可以做到識別貸款人之間的關係網路及社群，有效識別潛在的騙貸、欺詐使用者群體。

在社交網路演算法結果的基礎上，還可以結合歷史逾期資料，通過機器學習建立隨機森林模型進行使用者逾期預測。相比決策樹模型，隨機森林擁有更強的抗干擾能力及模型泛化能力，能夠實現對於不同群體的Vintage逾期率差異分析。通過以上分析結合歷史Vintage分析，可以據此預測未來可能產生的貸款逾期水平。

場景三：

RFM模型與GIS處理技術結合定位O2O虛假交易

在O2O商業模式中，使用者交易需要經歷線下、線上兩個環節，例如：團購預定中的線上下單，線下消費，二手車交易的線上撮合、線下驗車、過戶等。因此，通過地推團隊將線下訂單向線上“轉移”是典型的運營資料造假的手段之一。在這種造假方式下，需要引入對使用者行為進行聚類分析的機器學習模型，並結合其他維度才能有效識別出虛增平臺線上交易資料的行為。

640?wx_fmt=jpeg

以典型的O2O交易平臺為例，可以通過根據使用者行為資料建立包括最近一次交易時間（Recency）、交易使用者交易頻次（Frequency）和交易金額（Monetary）的聚類分析模型。

此外，可以結合GIS技術分析，通過基於LBS地理位置的Geohash演算法，將二維的經緯度轉換為字串來代表特定矩形區域，並對字串建立索引，從而實現海量地理資訊的快速匹配。

通過這一演算法可以實現自動檢測出交易、服務、配送等位置的集中度。在此基礎上，結合交易憑證資訊，能夠識別出存在的平臺通過購買線下交易資料，虛增平臺交易量的行為。

Geohash演算法原理示例：

640?wx_fmt=jpeg

總結

隨著網際網路與細分市場的發展越來越深入，細分行業所呈現出來的場景變化其實遠不止上述三類，我們僅基於歷史專案經驗中總結部分典型案例，幫助投資人對相關問題有一個更為感性的理解。

除了上述三個場景，網際網路在科技金融、遊戲、線上醫療、網路傳媒、新零售等很多細分領域衍生出的商業模式也會具有各自不同的行業特點。面對海量日益錯綜複雜又真假難辨的運營資料，通過將行業經驗與人工智慧、資料分析技術充分結合，投資人才能從容應對市場、環境、技術發展所帶來的各種挑戰。

640?wx_fmt=png 640?wx_fmt=jpeg

從“馬蜂窩事件”看，投資人如何避免資料盡職調查背後的交易風險？

從“馬蜂窩事件”看，投資人如何避免資料盡職調查背後的交易風險？

從重大事件保障，看華為如何打造一流保障體系

Redis勒索事件爆發，如何避免從刪庫到跑路?

從共享珠寶看，奢侈品發展之路是一手掌控上下遊鏈條？

【Android體驗】從使用者角度看，Android手機/應用應該要這樣：

從移動為例，看運營商的大資料能力

從點選事件看微信小程式的資料傳遞

技術分享丨從Hadoop到Spark，看大資料框架發展之路

【轉】【修真院“善良”系列之十八】WEB程序員從零開始到就業的全資料V1.0——只看這一篇就夠了！

從高考填誌願APP泛濫看，蹭熱點撈金有多可惡

從高鐵上定外賣看，未來創業公司還能整出啥花樣

從共享充電寶強制下載應用看，共享行業應如何保證安全？

從人人車融資2億美元看，二手車平臺還能刮起什麽風？

HTML5從入門到精通，零基礎學員必看

從日本汽車業恐慌，看傳統制造邁入電動時代的糾結

數字貨幣：從紙幣泡沫看比特幣泡沫，從互聯網泡沫看區塊鏈泡沫

從司法領域看阿裏雲產業AI策略：生態聯盟，技術賦能

面試必看｜如何避免減分項雷區，看面試官篩選簡歷八大關鍵點

從大數據看2018世界杯 —冷門叠爆，你熱愛的球隊回家了嗎？

從零開始學 Web 之 jQuery（七）事件冒泡，事件參數對象，鏈式編程原理

從“馬蜂窩事件”看，投資人如何避免資料盡職調查背後的交易風險？

相關推薦