關於大資料的一些個人理解

阿新 • • 發佈：2019-01-09

一般網站大概幾TB的資料量，這個數量級用mysql這樣傳統的資料庫還ok,
但如果再大，查詢起來就很慢，如果你想搜尋個關鍵詞，等半小時出不來結果，就很鬱悶。
所以大資料經常是上百TB,PB這樣的量級，並且用傳統的方法不能快速處理，必須用分散式的計算與儲存方法，
這樣才好意思說自己是大資料，這是其一。

其二，光量大還不夠，如果資料單一，價值也不大，資料需要有多樣性。
比如：某些購物網站除了有你的購物歷史記錄，還有你的電話，家庭地址，職業，手機型號。
有了這些多樣化的資料，就可以全面判斷你的購買傾向與消費能力，
從而在合適的時間，合適的地點，用合適的渠道給你推薦你更有可能買的東西。
所以，如果光有你的交易資訊，沒有這些附加資訊，也不好意思說自己是大資料。

還有一點特別重要，就是關於資料的完備性。
以前公司出一個產品，想預研市場反應，就去街上抽樣調查，逮住一個人就讓他體驗一下；
這種方法誤差是很大的，一方面樣本量不夠，另一方面結果是有偏的，還有使用者資訊不真實的情況。
而大資料不做抽樣，直接有全部使用者的資訊，歷史行為與接觸途徑，它群發個測試，80%的使用者都有反饋；或者每天80%的使用者都在它的雲裡活動，那麼調研結果一定是準確的；因為後者代表所有使用者的反應，而不是樣本的反應；這也是為什麼百度指數越來越被營銷重視，google用搜索電影關鍵詞的統計可以用來預測票房高低的原因（因為美國大部分人都用google搜電影，而搜的人多了看的人也多）。

2. 公司內部使用者的資料能稱得上大資料嗎？外部資料又如何來？

內部資料如果足夠多，足夠多樣化，就算大資料。
比如阿里巴巴，就是個航空母艦，
特別是在收購了微博，高德，友盟之後，更加豐富了自己的資料來源，
一個人在微博上說了什麼話，晒了什麼圖片，用地圖查了什麼shopping mall, 上網瀏覽了什麼網址，
它都看得清清楚楚。

小一點的公司，除了自己客戶的交易記錄，還有客戶資料，客戶跟客服的溝通和投訴記錄，
有上傳的圖片和視訊等等，如果開了微信公眾號，使用者的微信相關資料，通過公眾號跟公司的接觸也有了；
這些資料也很有價值，讓我說也算大資料，“大”是個寬泛的概念。

3. 資料可靠性如何？

資料多了肯定有不規整，雜亂的情況，有使用者電話號碼不對，地址錯誤等很多情況出現，但相比總體巨大的量來說，正確的也有很大比例，只要關注正確的，就已經很多了；另外，通過做一些資料清理，也可以矯正和優化資料質量。

關於大資料的一些個人理解

關於大資料的一些個人理解

數據庫的事物隔離級別以及鎖的一些個人理解

Servlet一些個人理解

RBF神經網路的一些個人理解

職業發展之大資料開發工程師理解

關於Dagger2的一些個人理解

讀O目標KR關鍵結果的一些個人理解

關於貝葉斯的一些個人理解

2018.11.9左右大資料學習個人這幾天的總結與回顧

大資料一些基本常識

敏捷開發及一些個人理解

關於maven的一些個人理解

關於JDBC的一些個人理解

spring+mybatis通用dao層、service層的一些個人理解與實現

大資料與個人隱私的平衡：懂你，但不認識你

關於核心中spinlock的一些個人理解

Recyclerview的一些個人理解與使用（三）列表中的計時器

關於Bean\Entity\Model\POJO的一些個人理解

未經同意便“被公開” 大資料時代個人隱私資料如何保護？

Recyclerview的一些個人理解與使用（二）實現一個簡單的列表介面

關於大資料的一些個人理解

相關推薦