PyTorch 中 LSTM 的 output、h_n 和 c_n 之間的關係

阿新 • • 發佈：2020-12-24

LSTM 簡介

官方文件：https://pytorch.org/docs/stable/generated/torch.nn.LSTM.html
h_n：最後一個時間步的輸出，即 h_n = output[:, -1, :]（一般可以直接輸入到後續的全連線層，在 Keras 中通過設定引數 return_sequences=False 獲得）
c_n：最後一個時間步 LSTM cell 的狀態（一般用不到）

例項

例項：根據紅框可以直觀看出，h_n 是最後一個時間步的輸出，即是 h_n = output[:, -1, :]，如何還是無法直觀理解，直接看如下截圖，對照程式碼可以非常容易看出它們的關係
例項程式碼：

>>> import torch
>>> import torch.nn as nn
>>> rnn = nn.LSTM(input_size=2, hidden_size=3, batch_first=True)
>>> input = torch.randn(5,4,2)
>>> h0 = torch.randn(1, 5, 3)
>>> c0 = torch.randn(1, 5, 3)
>>> output, (hn, cn) = rnn(input, (h0, c0))
>>> output
tensor([[[-0.1046, -0.0316, -0.2261],
         [ 0.0702,  0.0756, -0.2856],
         [ 0.1146,  0.0666, -0.1841],
         [ 0.1137,  0.0508, -0.3966]],

        [[ 0.3702, -0.1192, -0.3513],
         [ 0.3964, -0.0513, -0.1744],
         [ 0.3144,  0.0564, -0.2114],
         [ 0.3056,  0.1312, -0.1656]],

        [[ 0.1581, -0.3509,  0.0068],
         [ 0.2391, -0.0308,  0.0773],
         [ 0.2420,  0.0607, -0.0652],
         [ 0.2854,  0.0656, -0.0306]],

        [[-0.0562, -0.0229,  0.1600],
         [-0.2156, -0.0006,  0.0898],
         [ 0.0700,  0.2200, -0.0068],
         [ 0.1903,  0.3120,  0.0253]],

        [[ 0.1025, -0.0167,  0.3068],
         [ 0.2028,  0.0652,  0.1738],
         [ 0.3324,  0.1645,  0.1908],
         [ 0.2594,  0.0896, -0.0507]]], grad_fn=<TransposeBackward0>)
>>> hn
tensor([[[ 0.1137,  0.0508, -0.3966],
         [ 0.3056,  0.1312, -0.1656],
         [ 0.2854,  0.0656, -0.0306],
         [ 0.1903,  0.3120,  0.0253],
         [ 0.2594,  0.0896, -0.0507]]], grad_fn=<StackBackward>)
>>> cn
tensor([[[ 0.3811,  0.2079, -0.7427],
         [ 0.9059,  0.2375, -0.3272],
         [ 0.5819,  0.1175, -0.0766],
         [ 0.5059,  0.5022,  0.0446],
         [ 0.7312,  0.2270, -0.0970]]], grad_fn=<StackBackward>)
>>> output[-1]
tensor([[ 0.1025, -0.0167,  0.3068],
        [ 0.2028,  0.0652,  0.1738],
        [ 0.3324,  0.1645,  0.1908],
        [ 0.2594,  0.0896, -0.0507]], grad_fn=<SelectBackward>)
>>> output[:,:,-1]
tensor([[-0.2261, -0.2856, -0.1841, -0.3966],
        [-0.3513, -0.1744, -0.2114, -0.1656],
        [ 0.0068,  0.0773, -0.0652, -0.0306],
        [ 0.1600,  0.0898, -0.0068,  0.0253],
        [ 0.3068,  0.1738,  0.1908, -0.0507]], grad_fn=<SelectBackward>)
>>> output[:,-1,:]
tensor([[ 0.1137,  0.0508, -0.3966],
        [ 0.3056,  0.1312, -0.1656],
        [ 0.2854,  0.0656, -0.0306],
        [ 0.1903,  0.3120,  0.0253],
        [ 0.2594,  0.0896, -0.0507]], grad_fn=<SliceBackward>)
>>> output[:,-1,:].shape
torch.Size([5, 3])
>>> output.shape
torch.Size([5, 4, 3])
>>> hn.shape
torch.Size([1, 5, 3])
>>> cn.shape
torch.Size([1, 5, 3])

PyTorch 中 LSTM 的 output、h_n 和 c_n 之間的關係

技術標籤：PyTorch 基礎 LSTM 簡介官方文件：https://pytorch.org/docs/stable/generated/torch.nn.LSTM.htmlh_n：最後一個時間步的輸出，即 h_n = output[:, -1, :]（一般可以直接輸入到後續的全連線層，在 Ke

Java中的操作符、表示式和語句

Java中的操作符 Java是一門靜態強型別的語言，因此如果操作符接收的值的型別不符合操作符規定的型別，就會在編譯期產生編譯錯誤，通常IDE會對這種情況進行提示，所以Java的操作符不會跟JavaScript中的操作符那樣發生

Java中的String、StringBuffer和StringBuilder

　　作為作為一個已經入了門的java程式猿，肯定對Java中的String、StringBuffer和StringBuilder都略有耳聞了，尤其是String 肯定是經常用的。但肯定你有一點很好奇，為什麼java中有三個關於字串的類？一個不夠嗎！先

在pytorch 中計算精度、迴歸率、F1 score等指標的例項

pytorch中訓練完網路後，需要對學習的結果進行測試。官網上例程用的方法統統都是正確率，使用的是torch.eq()這個函式。

Python 列表中的修改、新增和刪除元素的實現

本文介紹的是列表中的修改、新增和刪除元素。第一次寫部落格，如果本文有什麼錯誤，還請大家評論指正。謝謝！

Map物件中的keyset()、entryset()和Map.Entry

一 Map物件中的keySet（）和entrySet（） 1. keySet（） public static void main(String[] args) {

C#中的char、string和StringBuilder的使用詳解

char 字元 char代表一個Unicode字元，它是System.Char的別名 char someChar = \'a\';//定義了一個字元

PyTorch中Tensor的資料型別和運算的使用

在使用Tensor時，我們首先要掌握如何使用Tensor來定義不同資料型別的變數。Tensor時張量的英文，表示多維矩陣，和numpy對應，PyTorch中的Tensor可以和numpy的ndarray相互轉換，唯一不同的是PyTorch可以在GPU上執行，

Linux中檢視CPU、記憶體和IO的佔用情況

對於伺服器的監控，主要還是檢視CPU、記憶體以及IO的佔用情況，在此做個簡單的瞭解

pytorch 中 torch.no_grad()、requires_grad、eval()

requires_grad requires_grad=True 要求計算梯度； requires_grad=False 不要求計算梯度；在pytorch中，tensor有一個 requires_grad引數，如果設定為True，則反向傳播時，該tensor就會自動求導。 tensor的requires_