1. 程式人生 > >深度學習中的優化演算法(SGD->Adam)

深度學習中的優化演算法(SGD->Adam)

深度學習中優化演算法的總結

機器學習界有一群煉丹師,他們每天的日常是:
拿來藥材(資料),架起八卦爐(模型),點著六味真火(優化演算法),就搖著蒲扇等著丹藥出爐了。
不過,當過廚子的都知道,同樣的食材,同樣的菜譜,但火候不一樣了,這出來的口味可是千差萬別。火小了夾生,火大了易糊,火不勻則半生半糊。
機器學習也是一樣,模型優化演算法的選擇直接關係到最終模型的效能。有時候效果不好,未必是特徵的問題或者模型設計的問題,很可能就是優化演算法的問題。

說到優化演算法,入門級必從 SGD 學起,老司機則會告訴你更好的還有 AdaGrad / AdaDelta,或者直接無腦用 Adam。可是看看學術界的最新 paper,卻發現一眾大神還在用著入門級的 SGD,最多加個 Momentum 或者 Nesterov,還經常會黑一下Adam。比如 UC Berkeley 的一篇論文就在 Conclusion 中寫道:

https://blog.csdn.net/fishmai/article