1. 程式人生 > >關於大資料的一些個人理解

關於大資料的一些個人理解


一般網站大概幾TB的資料量,這個數量級用mysql這樣傳統的資料庫還ok,
但如果再大,查詢起來就很慢,如果你想搜尋個關鍵詞,等半小時出不來結果,就很鬱悶。
所以大資料經常是上百TB,PB這樣的量級,並且用傳統的方法不能快速處理,必須用分散式的計算與儲存方法,
這樣才好意思說自己是大資料,這是其一。


其二,光量大還不夠,如果資料單一,價值也不大,資料需要有多樣性。
比如:某些購物網站除了有你的購物歷史記錄,還有你的電話,家庭地址,職業,手機型號。
有了這些多樣化的資料,就可以全面判斷你的購買傾向與消費能力,
從而在合適的時間,合適的地點,用合適的渠道給你推薦你更有可能買的東西。
所以,如果光有你的交易資訊,沒有這些附加資訊,也不好意思說自己是大資料。

還有一點特別重要,就是關於資料的完備性。
以前公司出一個產品,想預研市場反應,就去街上抽樣調查,逮住一個人就讓他體驗一下;
這種方法誤差是很大的,一方面樣本量不夠,另一方面結果是有偏的,還有使用者資訊不真實的情況。
而大資料不做抽樣,直接有全部使用者的資訊,歷史行為與接觸途徑,它群發個測試,80%的使用者都有反饋;或者每天80%的使用者都在它的雲裡活動,那麼調研結果一定是準確的;因為後者代表所有使用者的反應,而不是樣本的反應;這也是為什麼百度指數越來越被營銷重視,google用搜索電影關鍵詞的統計可以用來預測票房高低的原因(因為美國大部分人都用google搜電影,而搜的人多了看的人也多)。


2. 公司內部使用者的資料能稱得上大資料嗎?外部資料又如何來?

內部資料如果足夠多,足夠多樣化,就算大資料。
比如阿里巴巴,就是個航空母艦,
特別是在收購了微博,高德,友盟之後,更加豐富了自己的資料來源,
一個人在微博上說了什麼話,晒了什麼圖片,用地圖查了什麼shopping mall, 上網瀏覽了什麼網址,
它都看得清清楚楚。

小一點的公司,除了自己客戶的交易記錄,還有客戶資料,客戶跟客服的溝通和投訴記錄,
有上傳的圖片和視訊等等,如果開了微信公眾號,使用者的微信相關資料,通過公眾號跟公司的接觸也有了;
這些資料也很有價值,讓我說也算大資料,“大”是個寬泛的概念。


3. 資料可靠性如何?

資料多了肯定有不規整,雜亂的情況,有使用者電話號碼不對,地址錯誤等很多情況出現,但相比總體巨大的量來說,正確的也有很大比例,只要關注正確的,就已經很多了;另外,通過做一些資料清理,也可以矯正和優化資料質量。