深度學習花書學習筆記第十章序列建模：迴圈神經網路

阿新 • • 發佈：2018-11-09

展開計算圖

就是將迴圈圖展開成展開圖而已。

迴圈神經網路

就是如上網路，將某一層不斷重複，輸出重新作為輸入的一部分。

雙向RNN

應用於上下文環境都影響結果的場景，如語音識別，文章翻譯等

基於編碼-解碼的序列到序列架構

可以將可變長度的輸入轉變為可變長度的輸出。這裡也提到了注意力模型。後面瞭解下自編碼網路有沒有用到迴圈神經網路的技術。自編碼網路是將一個東西編碼後解碼再還原成原有事務。這裡的編碼解碼不一樣，是一個序列到另一個序列。

深度迴圈網路

將迴圈網路應用於深度學習中的部分層。

遞迴神經網路

主要用於推斷學習，處理同樣大小的序列，深度降低。主要問題是如何構建樹。一種方式構建平衡二叉樹，一種以先驗知識為基礎構建。

長期依賴挑戰

迴圈網路涉及相同函式的多次組合，當次數過多時，導致極端非線性。比如梯度消失和梯度爆炸。

後面幾節介紹採取的一些措施減少長期依賴。

回聲狀態網路

譜半徑：特徵值得最大絕對值。

添加了儲層計算。用來儲存之前學到的知識，用於後續處理。

ESN：回聲狀態網路

貌似很少遇到回聲狀態網路這個概念。

滲漏單元和其他多時間尺度的策略

時間維度的跳躍連線：構造t到t+n時刻的連線，減輕梯度消失和梯度爆炸。

滲漏單元和一系列不同時間尺度： $\mu ^{t} = \alpha \mu ^{t-1} + (1-\alpha )\upsilon ^{t}$ ，當 $\alpha$ 接近1時，能記住之前很長一段時間資訊。 $\alpha$ 可手動設定或者通過學習。

刪除連線：主動刪除長度為1的連線並用更長的連線替換。

長短期記憶和其他門控RNN

這裡主要介紹兩種最常用的LSTM和GRU，可以有效克服長期依賴。

LSTM：長短期記憶

主要包括三個模組：

忘記們：

輸出門：

輸入門：

GRU：門控迴圈單元

優化長期依賴

主要針對梯度爆炸和梯度消失。

當梯度爆炸時，可以使用梯度截斷，有兩個思路，一個是當梯度大於一定閾值時，設定當前梯度為閾值；另一個是大於閾值時，隨機往一個方向走一小步，看能否跳出這段不穩定區域。

梯度消失時使用資訊流正則化，加入以下正則：

這段沒理解。如何引導資訊流。

外顯記憶

就是通過使用專門的儲存單元儲存得到的記憶，可以儲存較多的內容，而後通過定址的方式查詢記憶來進行學習。

可以基於內容定址。定址方式可以類似注意力機制。示意圖如下：

深度學習花書學習筆記第十章序列建模：迴圈神經網路

展開計算圖

迴圈神經網路

雙向RNN

基於編碼-解碼的序列到序列架構

深度迴圈網路

遞迴神經網路

長期依賴挑戰

回聲狀態網路

滲漏單元和其他多時間尺度的策略

長短期記憶和其他門控RNN

優化長期依賴

外顯記憶

深度學習花書學習筆記第十章序列建模：迴圈神經網路

深度學習(十)之序列建模：迴圈和遞迴網路②

深度學習花書學習筆記第十一章實踐方法論

深度學習花書學習筆記第十二章應用

深度學習花書學習筆記第十五章表示學習

深度學習花書學習筆記第十三章線性因子模型

深度學習花書學習筆記第六章深度前饋網路

深度學習花書學習筆記第八章深度模型中的優化

深度學習花書學習筆記第九章卷積網路

斯坦福大學-自然語言處理與深度學習（CS224n）筆記第十課神經機器翻譯（neural machine translation）與attention模型

關於《深度學習》書中，第十一章中學習率過低會導致訓練誤差高位擾動的問題的猜想

CLR via C#學習筆記-第十章-有參屬性

強化學習（RLAI）讀書筆記第十章On-Policy Control with Approximation

C++ primer學習筆記——第十章泛型演算法

第二行程式碼學習筆記——第十章:後臺默默的勞動者——探究服務

《資料結構與演算法分析》學習筆記-第十章-演算法設計技巧

《統計學習方法》讀書筆記第五章

[HeadFrist-HTMLCSS學習筆記]第五章認識媒體：給網頁添加圖像

《Java編程思想》筆記第十章內部類

C++ Primer Plus 筆記第十章

深度學習花書學習筆記 第十章 序列建模：迴圈神經網路

展開計算圖

迴圈神經網路

雙向RNN

基於編碼-解碼的序列到序列架構

深度迴圈網路

遞迴神經網路

長期依賴挑戰

回聲狀態網路

滲漏單元和其他多時間尺度的策略

長短期記憶和其他門控RNN

優化長期依賴

外顯記憶

相關推薦

深度學習花書學習筆記第十章序列建模：迴圈神經網路