1. 程式人生 > >資料預處理--資料集處理

資料預處理--資料集處理

選擇訓練集/開發集/測試集大小

  之前,我只知道較普遍的 60/20/20 分隔。
  但對於一個非常大的資料集,應該使用 98/1/1 甚至 99/0.5/0.5 的分隔。這是因為開發集合測試集只要足夠大能保證模型處於團隊設定的置信區間即可。如果你使用 1 千萬個訓練樣本,那麼 10 萬樣本(即資料集的 1%)就足夠保證開發集和/或測試集的置信區間了。

資料集如何確保開發集和測試集的資料分佈一致?

  k折交叉驗證!