1. 程式人生 > >機器學習-常見問題積累【1】

機器學習-常見問題積累【1】

屬性。 積累 兩種 所在 哪些 異常 缺失值 問題 推導

1、python和R在做數據分析時各有自己得擅長得領域,如python做時域分析得難度就遠遠比R大,因為R有非常成熟得Package!

2、數據處理:如何處理缺失數據?各種處理方法得的利弊?

3、數據處理:如何將類別型(又稱做描述型)變量轉為連續變量?如何處理有序變量?如何處理無序變量

4、數據處理:如何進行特征選擇?如何進行數據壓縮?

5、模型解釋:什麽是欠擬合?什麽是過擬合?如何處理這兩種情況?

6、模型解釋:什麽是偏差與方差分解?與欠擬合和過擬合有什麽聯系?

7、評估模型一般有哪些手段?

1)分類模型評估的方法有哪些?

2)回歸問題評估方法有哪些?

3)數據不均衡的評估方法有哪些?

8、深度學習是否比其他學習模型都好?為什麽?

9、在只有少量的有標簽數據的情況下,如何構建一個反保險欺詐系統?

10、在數據分布不均勻的情況下,是采用過采樣還是欠采樣?如何調整代價函數和閾值?

11、SVM,什麽事最大間隔分類器?什麽是kernel,如何懸著kernel?

12、為什麽K-means不適合異常值檢測?K-means和GMM是什麽關系?是否可以用FMM來直接擬合異常值?

13、如何可以得到無監督學習中的分類規則?

14、L1和L2正則化兩者有什麽不同,什麽時候采用L1,什麽時候采用L2?為什麽L1可以得到稀疏解?它們與嵌入式特征選擇有什麽聯系?

15、根據崗位準備一份項目策劃書

看懂周誌華<<機器學習>>前十章,並熟練的使用Sklearn中基礎API進行建模就可以了,勿矯枉過正,如果你的崗位不是理論型科學家崗位,不要與

數學推導死磕。

-----------------------------------------------------------------------------------------

Answer:

2、1>分析缺失值所在比例,如果某個屬性的缺失值太多,可考慮去除該屬性。

2>可以用均值、眾數、中位數、回歸值填充代替

3>用0填充代替

機器學習-常見問題積累【1】