機器學習-常見問題積累【1】
1、python和R在做數據分析時各有自己得擅長得領域,如python做時域分析得難度就遠遠比R大,因為R有非常成熟得Package!
2、數據處理:如何處理缺失數據?各種處理方法得的利弊?
3、數據處理:如何將類別型(又稱做描述型)變量轉為連續變量?如何處理有序變量?如何處理無序變量
4、數據處理:如何進行特征選擇?如何進行數據壓縮?
5、模型解釋:什麽是欠擬合?什麽是過擬合?如何處理這兩種情況?
6、模型解釋:什麽是偏差與方差分解?與欠擬合和過擬合有什麽聯系?
7、評估模型一般有哪些手段?
1)分類模型評估的方法有哪些?
2)回歸問題評估方法有哪些?
3)數據不均衡的評估方法有哪些?
8、深度學習是否比其他學習模型都好?為什麽?
9、在只有少量的有標簽數據的情況下,如何構建一個反保險欺詐系統?
10、在數據分布不均勻的情況下,是采用過采樣還是欠采樣?如何調整代價函數和閾值?
11、SVM,什麽事最大間隔分類器?什麽是kernel,如何懸著kernel?
12、為什麽K-means不適合異常值檢測?K-means和GMM是什麽關系?是否可以用FMM來直接擬合異常值?
13、如何可以得到無監督學習中的分類規則?
14、L1和L2正則化兩者有什麽不同,什麽時候采用L1,什麽時候采用L2?為什麽L1可以得到稀疏解?它們與嵌入式特征選擇有什麽聯系?
15、根據崗位準備一份項目策劃書
看懂周誌華<<機器學習>>前十章,並熟練的使用Sklearn中基礎API進行建模就可以了,勿矯枉過正,如果你的崗位不是理論型科學家崗位,不要與
數學推導死磕。
-----------------------------------------------------------------------------------------
Answer:
2、1>分析缺失值所在比例,如果某個屬性的缺失值太多,可考慮去除該屬性。
2>可以用均值、眾數、中位數、回歸值填充代替
3>用0填充代替
機器學習-常見問題積累【1】