關於torch.optim的靈活使用詳解(包括重寫SGD,加上L1正則)

阿新 • • 發佈：2020-02-21

torch.optim的靈活使用詳解

1. 基本用法：

要構建一個優化器Optimizer，必須給它一個包含引數的迭代器來優化，然後，我們可以指定特定的優化選項，

例如學習速率，重量衰減值等。

注：如果要把model放在GPU中，需要在構建一個Optimizer之前就執行model.cuda()，確保優化器裡面的引數也是在GPU中。

例子：

optimizer = optim.SGD(model.parameters(),lr = 0.01,momentum=0.9)

2. 靈活的設定各層的學習率

將model中需要進行BP的層的引數送到torch.optim中，這些層不一定是連續的。

這個時候，Optimizer的引數不是一個可迭代的變數，而是一個可迭代的字典

(字典的key必須包含'params'(檢視原始碼可以得知optimizer通過'params'訪問parameters)，

其他的key就是optimizer可以接受的，比如說'lr','weight_decay')，可以將這些字典構成一個list，

這樣就是一個可迭代的字典了。

注：這個時候，可以在optimizer設定選項作為關鍵字引數傳遞，這時它們將被認為是預設值(當字典裡面沒有這個關鍵字引數key-value對時，就使用這個預設的引數)

This is useful when you only want to vary a single option,while keeping all others consistent between parameter groups.

例子：

optimizer = SGD([
        {'params': model.features12.parameters(),'lr': 1e-2},{'params': model.features22.parameters()},{'params': model.features32.parameters()},{'params': model.features42.parameters()},{'params': model.features52.parameters()},],weight_decay1=5e-4,lr=1e-1,momentum=0.9)

上面建立的optim.SGD型別的Optimizer，lr預設值為1e-1，momentum預設值為0.9。features12的引數學習率為1e-2。

靈活更改各層的學習率

torch.optim.optimizer.Optimizer的初始化函式如下：

__init__(self,params,lr=<object object>,momentum=0,dampening=0,weight_decay=0,nesterov=False)

params (iterable): iterable of parameters to optimize or dicts defining parameter groups （params可以是可迭代的引數，或者一個定義引數組的字典，如上所示，字典的鍵值包括：params，lr，momentum，dampening，weight_decay，nesterov）

想要改變各層的學習率，可以訪問optimizer的param_groups屬性。type(optimizer.param_groups) -> list

optimizer.param_groups[0].keys()
Out[21]: ['dampening','nesterov','params','lr','weight_decay','momentum']

因此，想要更改某層引數的學習率，可以訪問optimizer.param_groups，指定某個索引更改'lr'引數就可以。

def adjust_learning_rate(optimizer,decay_rate=0.9):
  for para in optimizer.param_groups:
    para['lr'] = para['lr']*decay_rate

重寫torch.optim，加上L1正則

檢視torch.optim.SGD等Optimizer的原始碼，發現沒有L1正則的選項，而L1正則更容易得到稀疏解。

這個時候，可以更改/home/smiles/anaconda2/lib/python2.7/site-packages/torch/optim/sgd.py檔案，模擬L2正則化的操作。

L1正則化求導如下：

dw = 1 * sign(w)

更改後的sgd.py如下：

import torch
from torch.optim.optimizer import Optimizer,required

class SGD(Optimizer):
  def __init__(self,lr=required,weight_decay1=0,weight_decay2=0,nesterov=False):
    defaults = dict(lr=lr,momentum=momentum,dampening=dampening,weight_decay1=weight_decay1,weight_decay2=weight_decay2,nesterov=nesterov)
    if nesterov and (momentum <= 0 or dampening != 0):
      raise ValueError("Nesterov momentum requires a momentum and zero dampening")
    super(SGD,self).__init__(params,defaults)

  def __setstate__(self,state):
    super(SGD,self).__setstate__(state)
    for group in self.param_groups:
      group.setdefault('nesterov',False)

  def step(self,closure=None):
    """Performs a single optimization step.

    Arguments:
      closure (callable,optional): A closure that reevaluates the model
        and returns the loss.
    """
    loss = None
    if closure is not None:
      loss = closure()

    for group in self.param_groups:
      weight_decay1 = group['weight_decay1']
      weight_decay2 = group['weight_decay2']
      momentum = group['momentum']
      dampening = group['dampening']
      nesterov = group['nesterov']

      for p in group['params']:
        if p.grad is None:
          continue
        d_p = p.grad.data
        if weight_decay1 != 0:
          d_p.add_(weight_decay1,torch.sign(p.data))
        if weight_decay2 != 0:
          d_p.add_(weight_decay2,p.data)
        if momentum != 0:
          param_state = self.state[p]
          if 'momentum_buffer' not in param_state:
            buf = param_state['momentum_buffer'] = torch.zeros_like(p.data)
            buf.mul_(momentum).add_(d_p)
          else:
            buf = param_state['momentum_buffer']
            buf.mul_(momentum).add_(1 - dampening,d_p)
          if nesterov:
            d_p = d_p.add(momentum,buf)
          else:
            d_p = buf

        p.data.add_(-group['lr'],d_p)

    return loss

一個使用的例子：

optimizer = SGD([
        {'params': model.features12.parameters()},momentum=0.9)

以上這篇關於torch.optim的靈活使用詳解(包括重寫SGD,加上L1正則)就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支援我們。

關於torch.optim的靈活使用詳解(包括重寫SGD,加上L1正則)

torch.optim的靈活使用詳解 1. 基本用法：要構建一個優化器Optimizer，必須給它一個包含引數的迭代器來優化，然後，我們可以指定特定的優化選項，

MongoDB查詢之高階操作詳解（多條件查詢、正則匹配查詢等）

MongoDB查詢之高階操作語法介紹 MongoDB查詢文件使用find()方法，同時find()方法以非結構化的方式來顯示所有查詢到的文件。

PHP正則表示式核心技術完全詳解第7節陣列元素正則匹配

作者：極客小俊一個專注於web技術的80後我不用拼過聰明人，我只需要拼過那些懶人我就一定會超越大部分人!

PyTorch裡面的torch.nn.Parameter()詳解

在看過很多部落格的時候發現了一個用法self.v = torch.nn.Parameter(torch.FloatTensor(hidden_size)),首先可以把這個函式理解為型別轉換函式，將一個不可訓練的型別Tensor轉換成可以訓練的型別parameter並將這個par

Pytorch——torch.nn.Sequential()詳解

參考：官方文件原始碼官方文件 nn.Sequential 　　A sequential container. Modules will be added to it in the order they are passed in the constructor. Alternatively, an ordered dict of modules can als

小米 12 系列影像系統詳解：重寫整個相機架構，異構 / 並行運算

1 月 6 日訊息，今日小米官方發表文章，對小米 12 系列的影像系統進行詳解。小米 12 系列專注於解決以往拍照不夠快的問題，同時小米 12 Pro 首發索尼 IMX707 感測器，擁有更出色的夜景拍攝能力。小米表示，歷時兩年

TORCH.NN.MAXPOOL2D詳解

來源 https://www.freesion.com/article/84481470528/ MaxPool2d 這個類的實現十分簡單。

torch.optim.SGD引數詳解

隨機梯度下降法　　　　$\\theta_{t} \\leftarrow \\theta_{t-1}-\\alpha g_{t}$ Code： optimzer = torch.optim.SGD(model.parameters(),lr = 0.001)

pytorch中torch.max和Tensor.view函式用法詳解

torch.max() 1. torch.max()簡單來說是返回一個tensor中的最大值。例如： >>> si=torch.randn(4,5)

pytorch torch.nn.AdaptiveAvgPool2d()自適應平均池化函式詳解

如題：只需要給定輸出特徵圖的大小就好，其中通道數前後不發生變化。具體如下：

pytorch torch.expand和torch.repeat的區別詳解

1.torch.expand 函式返回張量在某一個維度擴充套件之後的張量，就是將張量廣播到新形狀。函式對返回的張量不會分配新記憶體，即在原始張量上返回只讀檢視，返回的張量記憶體是不連續的。類似於numpy中的broadcast_t

pytorch1.0中torch.nn.Conv2d用法詳解

Conv2d的簡單使用 torch 包 nn 中 Conv2d 的用法與 tensorflow 中類似，但不完全一樣。

PyTorch中torch.tensor與torch.Tensor的區別詳解

PyTorch最近幾年可謂大火。相比於TensorFlow，PyTorch對於Python初學者更為友好，更易上手。

C#子類對基類方法的繼承、重寫與隱藏詳解

前言提起子類、基類和方法繼承這些概念，肯定大家都非常熟悉。畢竟，作為一門支援OOP的語言，掌握子類、基類是學習C#的基礎。不過，這些概念雖然簡單，但是也有一些初學者可能會遇到的坑，我們一起看看吧。

Django model重寫save方法及update踩坑詳解

一個非常實用的小方法試想一下，Django中如果我們想對儲存進資料庫的資料做校驗，有哪些實現的方法？

Pytorch學習筆記08----優化器演算法Optimizer詳解（SGD、Adam）

1.優化器演算法簡述首先來看一下梯度下降最常見的三種變形 BGD，SGD，MBGD，這三種形式的區別就是取決於我們用多少資料來計算目標函式的梯度，這樣的話自然就涉及到一個 trade－off，即引數更新的準確率和執行時間。

詳解torch.Tensor的4種乘法

torch.Tensor有4種常見的乘法：*,torch.mul,torch.mm,torch.matmul. 本文拋磚引玉，簡單敘述一下這4種乘法的區別，具體使用還是要參照官方文件。

linux mint下安裝phpstorm2020包括JDK部分的教程詳解

環境：linux mint 20,一切都是最新的版本。都知道，PHPSTORM破解和執行都是離不開JDK/JRE的。

Java中final修飾的方法是否可以被重寫示例詳解

這是一次阿里面試裡被問到的題目，在我的印象中，final修飾的方法是不能被子類重寫的。如果在子類中重寫final修飾的方法，在編譯階段就會提示Error。但是回答的時候還是有點心虛的，因為final變數就可以用反射的方法

子類重寫父類虛擬函式_C++虛擬函式詳解（轉載）

技術標籤：子類重寫父類虛擬函式子類過載父類函式前言 C++中的虛擬函式的作用主要是實現了多型的機制。關於多型，簡而言之就是用父類型別的指標指向其子類的例項，然後通過父類的指標呼叫實際子類的成員函式。

關於torch.optim的靈活使用詳解(包括重寫SGD,加上L1正則)

相關推薦