1. 程式人生 > >大資料技術的十個關鍵點

大資料技術的十個關鍵點

第一課:
目前資料分析主流的是R、python,相信大部分不會用C++和julia這兩個和java的那套體系的工程量太大,並且大部分都是業務邏輯寫改刪查抄。
C語言確實有點難,他和彙編類似,粒度到操作符級別,但是我認為編碼必須學C++這個是一個程式設計基礎。也是理解底層的基本功。
第二課:
線性迴歸、多元迴歸、多項式迴歸、非線性迴歸(倒數迴歸、對數迴歸)、多重共線性
第三課:
嶺迴歸、第一課:概述與工具介紹、機器學習模型、機器學習的路線圖、Python(含Scikit-learn)、R、MATLAB、Weka
第二課:線性迴歸、多元迴歸、多項式迴歸、非線性迴歸(含倒數模型、對數模型等)、多重共線性、R及Python迴歸例項
第三課:嶺迴歸與LASSO、過擬合與正則化、TensorFlow初步、邏輯迴歸、分類任務及其評價(Accuracy, Precison, Recall, F1-Score)、基於Python的鳶尾花分類器例項
第四課:較大熵模型(Softmax)、感知機演算法、TensorFlow手寫數字識別例項
第五課:支援向量機(凸優化及KKT條件)、VC維、Python及MATLAB鳶尾花分類例項
第六課:聚類演算法之k-means、k-median與期望較大化演算法(EM)、Python及R聚類例項
第七課:密度聚類DBSCAN、kNN(含kd-tree、quad-tree)、Python及MATLAB例項
第八課:決策樹1(Hunt, ID3)、Gini Index、資訊增益、分類誤差
第九課:決策樹2(C4.5,CART)、Weka的使用
第十課:隨機森林、Bootstrap與AdaBoost