深度學習筆記二：卷積神經網路（CNN）

阿新 • • 發佈：2020-08-01

卷積神經網路CNN

1. 緒論

1. 卷積神經網路的應用

基本應用：分類、檢索、檢測、分割

2. 傳統神經網路 VS 卷積神經網路

深度學習三部曲：

放一個知乎上寫的輔助理解CNN的文章：https://zhuanlan.zhihu.com/p/27908027

Step 1. 搭建神經網路

Step 2. 找到一個合適的損失函式（交叉熵損失、均方誤差等）

softmax

給定W，可以由畫素對映到類目得分。

損失函式是用來衡量吻合度的，衡量輸出和真實的標籤之間的差異。

可以調整引數/權重W，使得對映的結果和實際類別吻合。

$Softmax(z_i)=\frac{e^{z_i}}{\Sigma^C_{c=1}e^{z_c}}$

其中為第i個節點的輸出值，C為輸出節點的個數，即分類的類別個數。通過Softmax函式就可以將多分類的輸出值轉換為範圍在[0, 1]和為1的概率分佈。

補充一下熵（Entropy）的概念。

eg：確定明天是否下雨，只需要一個bit即可（0代表不下雨，1代表下雨），也就是該隨機變數的熵為1。如果是陰晴雨雪，需要$log^4_{2}=2$位bit。因此，確定一個有n種等可能情況的事件，需要有$log^n_{2}$的資訊量消除不確定，即熵為$log^n_{2}$。

資訊熵的公式為：$H(X)=-\Sigma^n_{i=1}p(x_i)logo(x_i)$

相對熵（KL散度）用於衡量對於同一個隨機變數x的兩個分佈p(x)和q(x)之間的差異。在機器學習中p(x)常用於描述樣本的真實分佈，q(x)用於描述預測分佈。公式為：$D_{KL}(p||q)=\Sigma^n_{i=1}p(x_i)log(\frac{p(x_i)}{q(x_i)})$

交叉熵：將KL散度的公式進行變形，得$D_{KL}(p||q)=-H(x)+[-\Sigma^n_{i=1}p(x_i)log(q(x_i))]。$前半部分為p(x)的熵，後半部分為交叉熵。

如果是不等可能，由於各種可能性相互獨立，資訊熵就變為確定所有可能結果的平均資訊量。

交叉熵損失：$Loss=-\Sigma y_i lny^p_{i}$ 其中$y_i$指的是真實的類別，p指的是predicted。

hinge loss:$L(y,f(x))=max(0,1-yf(x))$

常用迴歸損失：均方誤差$MSE=\Sigma^n_{i=1}(y_i-y_i^p)^2$ 平均絕對值誤差（L1損失)：$MAE=\Sigma_{i=1}^n|y_i-y_i^p|$

Step 3. 找到一個合適的優化函式，更新引數（反向傳播BP、隨機梯度下降SGD等）

全連線網路：當前神經元和上一層每個神經元都有連線。

全連線網路處理影象的問題：權重矩陣的引數太多導致過擬合。卷積神經網路的解決方式：區域性關聯，引數共享。

2. 基本組成結構

1. 卷積 Convolutional Layer

一維卷積經常用在訊號處理中，用於計算訊號的延遲累積。

假設一個訊號發生器在時刻t發出一個訊號$x_t$，其資訊的衰減率為$f_k$，即在k-1個時間步長後，資訊衰減為原來的$f_k$倍。

設$f_1=1,f_2=\frac{1}{2},f_3=\frac{1}{4}$，在時刻t收到的訊號$y_t$ 為當前時刻產生的資訊和以前時刻延遲資訊的疊加。

$y_t=\Sigma_{k=1}^3 f_k\times x_{t-k+1}$ 此處的$f=[f_1,f_2,f_3]$被稱為濾波器（filter）或者卷積核（convolutional kernel）

設濾波器f長為m，它和一個訊號序列$x=[x_1,x_2,x_3...]$的卷積記為$y_t=\Sigma_{k=1}^3mf_k\times x_{t-k+1}$

卷積是什麼？卷積是對兩個實變函式的一種數學操作。影象處理中圖象是二維矩陣，因此需要二維卷積。![1 (2)](C:\Users\nuc\Desktop\1 (2).png)

其中

input：輸入

kernel/filter：卷積核/濾波器

weights：權重（卷積核內部的值）

receptive field：感受野（卷積核進行一次卷積的時候所對應的輸入的區域）

activation map 或 feature map：特徵圖

padding：在輸入兩邊補0，保證以當前步長進行卷積操作時大小能匹配。

depth/channel：深度

output：輸出

![G2@XX{[N(5QD3B[V$DS6H20](C:\Users\nuc\Documents\Tencent Files\1514400614\FileRecv\MobileFile\Image\G2@XX{[N(5QD3B[V$DS6H20.png)

輸出的特徵圖大小：$\frac{N-F}{stride}+1$（無padding）

有padding時輸出的特徵圖大小：$\frac{N+padding\times 2-F}{stride}+1$

深度：feature map的厚度，和filter的個數保持一致。每個filter經過一次卷積之後就會產生一個feature map

2. 池化

更像是縮放的一個過程。

Pooling：保留了主要特徵的同時減少引數和計算量，防止過擬合，提高模型泛化能力，一般處於卷積層和卷積層之間，全連線層與全連線層之間。

Pooling的型別：

Max Pooling：最大值池化

Average Pooling：平均池化

池化的filter：$n\times n$代表每次在多大的區域池化。步長stride含義同卷積。

![A@%H7MNZZ]O2JOM$J@4X9X](C:\Users\nuc\Documents\Tencent Files\1514400614\FileRecv\MobileFile\Image\A@%H7MNZZ][email protected])

在分類的任務中傾向於使用最大值池化，filter的大小一般設定為$2\times 2 or 3\times 3$，步長一般設定為2.

3. 全連線

全連線層 / FC layer：

兩層之間所有神經元都有權重連線，通常全連線層在卷積神經網路尾部，全連線層引數量通常最大。

3. 卷積神經網路典型結構

1. AlexNet

成功原因：大資料訓練（百萬級ImageNet影象資料），非線性啟用函式（ReLU），防止過擬合（Dropout，Data augmentation），其他（雙GPU）。

DropOut（隨機失活）：訓練時隨即關閉部分神經元，測試時整合所有神經元。過擬合的原因：引數過多

資料增強：平移，翻轉，對稱。改變RGB通道強度。

AlexNet分層解析

第一次卷積：卷積-ReLU-池化

第二次卷積：卷積-ReLU-池化

第三次卷積：卷積-ReLU

第四次卷積：卷積-ReLU

第五次卷積：卷積-ReLU-池化

第六層：全連線-ReLU-DropOut

第七層：全連線-ReLU-DropOut

第八層：全連線-SoftMax

2. ZFNet

網路結構與AlexNet相同，將卷積層1中的感受野大小由$11\times 11$改為$7\times 7$，步長由4改為2.卷積層3，4，5中的濾波器個數由384，384，256改為512，512，1024.

3. VGG

VGG是一個更深網路。8 layers（AlexNet）-> 16-19（VGG）

4. GoogleNet

包含22個帶引數的層（加上池化層就是27層），獨立成塊的層共100個。引數量大約是AlexNet的1/12，無FC層。

初衷：多卷積核增加特徵多樣性。

V2:降維：插入$1\times 1$卷積核。

V3:降低引數量（小的卷積核代替大的卷積核，一個$5\times 5$可以用兩個$3\times 3$替代），增加非線性啟用函式使得網路產生更多獨立特（disentangled feature），表徵能力更強，訓練更快。

Stem部分：卷積-池化-卷積-卷積-池化

5. ResNet

殘差學習網路。

層數多了會出現網路退化的問題。

殘差：$F(x)=H(x)-x$

殘差學習：$H(X)$不可訓練，$F(x)$可訓練，可以通過訓練$F(x)$得到$H(x)$，即為殘差學習。

ResNet是由5個stage組成（conv2_x, conv3_x, conv4_x, conv5_x），五個stage又分為若干個block，每個block又分為若干個卷積層。一套程式碼可以實現不同的層次。

Global Average Pooling（全域性平均池化）：把一個通道變成一個數字（求平均值）。可以替代全連線層，更少出現過擬合。

API: torch.nn.AdaptiveAvgPool2d(output_size)

50層以上和50層以下的ResNet的區別：BottleNeck。把高維用$1\times 1$卷積核降維進行卷積操作，再升維。

4. 程式碼練習

1. 卷積神經網路

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torchvision import datasets, transforms
import matplotlib.pyplot as plt
import numpy

# 一個函式，用來計算模型中有多少引數
def get_n_params(model):
    np=0
    for p in list(model.parameters()):
        np += p.nelement()
    return np

# 使用GPU訓練，可以在選單 "程式碼執行工具" -> "更改執行時型別" 裡進行設定
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
input_size  = 28*28   # MNIST上的影象尺寸是 28x28
output_size = 10      # 類別為 0 到 9 的數字，因此為十類

train_loader = torch.utils.data.DataLoader(
    datasets.MNIST('./data', train=True, download=True,
        transform=transforms.Compose(
            [transforms.ToTensor(),
             transforms.Normalize((0.1307,), (0.3081,))])),
    batch_size=64, shuffle=True)

test_loader = torch.utils.data.DataLoader(
    datasets.MNIST('./data', train=False, transform=transforms.Compose([
             transforms.ToTensor(),
             transforms.Normalize((0.1307,), (0.3081,))])),
    batch_size=1000, shuffle=True)
plt.figure(figsize=(8, 5))
for i in range(20):
    plt.subplot(4, 5, i + 1)
    image, _ = train_loader.dataset.__getitem__(i)
    plt.imshow(image.squeeze().numpy(),'gray')
    plt.axis('off');
class FC2Layer(nn.Module):
    def __init__(self, input_size, n_hidden, output_size):
        # nn.Module子類的函式必須在建構函式中執行父類的建構函式
        # 下式等價於nn.Module.__init__(self)        
        super(FC2Layer, self).__init__()
        self.input_size = input_size
        # 這裡直接用 Sequential 就定義了網路，注意要和下面 CNN 的程式碼區分開
        self.network = nn.Sequential(
            nn.Linear(input_size, n_hidden), 
            nn.ReLU(), 
            nn.Linear(n_hidden, n_hidden), 
            nn.ReLU(), 
            nn.Linear(n_hidden, output_size), 
            nn.LogSoftmax(dim=1)
        )
    def forward(self, x):
        # view一般出現在model類的forward函式中，用於改變輸入或輸出的形狀
        # x.view(-1, self.input_size) 的意思是多維的資料展成二維
        # 程式碼指定二維資料的列數為 input_size=784，行數 -1 表示我們不想算，電腦會自己計算對應的數字
        # 在 DataLoader 部分，我們可以看到 batch_size 是64，所以得到 x 的行數是64
        # 大家可以加一行程式碼：print(x.cpu().numpy().shape)
        # 訓練過程中，就會看到 (64, 784) 的輸出，和我們的預期是一致的

        # forward 函式的作用是，指定網路的執行過程，這個全連線網路可能看不啥意義，
        # 下面的CNN網路可以看出 forward 的作用。
        x = x.view(-1, self.input_size)
        return self.network(x)
    


class CNN(nn.Module):
    def __init__(self, input_size, n_feature, output_size):
        # 執行父類的建構函式，所有的網路都要這麼寫
        super(CNN, self).__init__()
        # 下面是網路裡典型結構的一些定義，一般就是卷積和全連線
        # 池化、ReLU一類的不用在這裡定義
        self.n_feature = n_feature
        self.conv1 = nn.Conv2d(in_channels=1, out_channels=n_feature,
kernel_size=5)
        self.conv2 = nn.Conv2d(n_feature, n_feature, kernel_size=5)
        self.fc1 = nn.Linear(n_feature*4*4, 50)
        self.fc2 = nn.Linear(50, 10)    
    
    # 下面的 forward 函式，定義了網路的結構，按照一定順序，把上面構建的一些結構組織起來
    # 意思就是，conv1, conv2 等等的，可以多次重用
    def forward(self, x, verbose=False):
        x = self.conv1(x)
        x = F.relu(x)
        x = F.max_pool2d(x, kernel_size=2)
        x = self.conv2(x)
        x = F.relu(x)
        x = F.max_pool2d(x, kernel_size=2)
        x = x.view(-1, self.n_feature*4*4)
        x = self.fc1(x)
        x = F.relu(x)
        x = self.fc2(x)
        x = F.log_softmax(x, dim=1)
        return x
# 訓練函式
def train(model):
    model.train()
    # 主裡從train_loader裡，64個樣本一個batch為單位提取樣本進行訓練
    for batch_idx, (data, target) in enumerate(train_loader):
        # 把資料送到GPU中
        data, target = data.to(device), target.to(device)

        optimizer.zero_grad()
        output = model(data)
        loss = F.nll_loss(output, target)
        loss.backward()
        optimizer.step()
        if batch_idx % 100 == 0:
            print('Train: [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(
                batch_idx * len(data), len(train_loader.dataset),
                100. * batch_idx / len(train_loader), loss.item()))


def test(model):
    model.eval()
    test_loss = 0
    correct = 0
    for data, target in test_loader:
        # 把資料送到GPU中
        data, target = data.to(device), target.to(device)
        # 把資料送入模型，得到預測結果
        output = model(data)
        # 計算本次batch的損失，並加到 test_loss 中
        test_loss += F.nll_loss(output, target, reduction='sum').item()
        # get the index of the max log-probability，最後一層輸出10個數，
        # 值最大的那個即對應著分類結果，然後把分類結果儲存在 pred 裡
        pred = output.data.max(1, keepdim=True)[1]
        # 將 pred 與 target 相比，得到正確預測結果的數量，並加到 correct 中
        # 這裡需要注意一下 view_as ，意思是把 target 變成維度和 pred 一樣的意思                                                
        correct += pred.eq(target.data.view_as(pred)).cpu().sum().item()

    test_loss /= len(test_loader.dataset)
    accuracy = 100. * correct / len(test_loader.dataset)
    print('\nTest set: Average loss: {:.4f}, Accuracy: {}/{} ({:.0f}%)\n'.format(
        test_loss, correct, len(test_loader.dataset),
        accuracy))
#小型全連線網路上訓練
n_hidden = 8 # number of hidden units

model_fnn = FC2Layer(input_size, n_hidden, output_size)
model_fnn.to(device)
optimizer = optim.SGD(model_fnn.parameters(), lr=0.01, momentum=0.5)
print('Number of parameters: {}'.format(get_n_params(model_fnn)))

train(model_fnn)
test(model_fnn)
# Training settings 卷積神經網路上訓練
n_features = 6 # number of feature maps

model_cnn = CNN(input_size, n_features, output_size)
model_cnn.to(device)
optimizer = optim.SGD(model_cnn.parameters(), lr=0.01, momentum=0.5)
print('Number of parameters: {}'.format(get_n_params(model_cnn)))

train(model_cnn)
test(model_cnn)
#打亂影象畫素順序

# 這裡解釋一下 torch.randperm 函式，給定引數n，返回一個從0到n-1的隨機整數排列
perm = torch.randperm(784)
plt.figure(figsize=(8, 4))
for i in range(10):
    image, _ = train_loader.dataset.__getitem__(i)
    # permute pixels
    image_perm = image.view(-1, 28*28).clone()
    image_perm = image_perm[:, perm]
    image_perm = image_perm.view(-1, 1, 28, 28)
    plt.subplot(4, 5, i + 1)
    plt.imshow(image.squeeze().numpy(), 'gray')
    plt.axis('off')
    plt.subplot(4, 5, i + 11)
    plt.imshow(image_perm.squeeze().numpy(), 'gray')
    plt.axis('off')
# 對每個 batch 裡的資料，打亂畫素順序的函式
def perm_pixel(data, perm):
    # 轉化為二維矩陣
    data_new = data.view(-1, 28*28)
    # 打亂畫素順序
    data_new = data_new[:, perm]
    # 恢復為原來4維的 tensor
    data_new = data_new.view(-1, 1, 28, 28)
    return data_new

# 訓練函式
def train_perm(model, perm):
    model.train()
    for batch_idx, (data, target) in enumerate(train_loader):
        data, target = data.to(device), target.to(device)
        # 畫素打亂順序
        data = perm_pixel(data, perm)

        optimizer.zero_grad()
        output = model(data)
        loss = F.nll_loss(output, target)
        loss.backward()
        optimizer.step()
        if batch_idx % 100 == 0:
            print('Train: [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(
                batch_idx * len(data), len(train_loader.dataset),
                100. * batch_idx / len(train_loader), loss.item()))

# 測試函式
def test_perm(model, perm):
    model.eval()
    test_loss = 0
    correct = 0
    for data, target in test_loader:
        data, target = data.to(device), target.to(device)

        # 畫素打亂順序
        data = perm_pixel(data, perm)

        output = model(data)
        test_loss += F.nll_loss(output, target, reduction='sum').item()
        pred = output.data.max(1, keepdim=True)[1]                                            
        correct += pred.eq(target.data.view_as(pred)).cpu().sum().item()

    test_loss /= len(test_loader.dataset)
    accuracy = 100. * correct / len(test_loader.dataset)
    print('\nTest set: Average loss: {:.4f}, Accuracy: {}/{} ({:.0f}%)\n'.format(
        test_loss, correct, len(test_loader.dataset),
        accuracy))
#全連線網路上測試
perm = torch.randperm(784)
n_hidden = 8 # number of hidden units

model_fnn = FC2Layer(input_size, n_hidden, output_size)
model_fnn.to(device)
optimizer = optim.SGD(model_fnn.parameters(), lr=0.01, momentum=0.5)
print('Number of parameters: {}'.format(get_n_params(model_fnn)))

train_perm(model_fnn, perm)
test_perm(model_fnn, perm)
#卷積神經網路上測試
perm = torch.randperm(784)
n_features = 6 # number of feature maps

model_cnn = CNN(input_size, n_features, output_size)
model_cnn.to(device)
optimizer = optim.SGD(model_cnn.parameters(), lr=0.01, momentum=0.5)
print('Number of parameters: {}'.format(get_n_params(model_cnn)))

train_perm(model_cnn, perm)
test_perm(model_cnn, perm)

打亂畫素順序後卷積神經網路就8行了。

老師的解釋是：“這是因為對於卷積神經網路，會利用畫素的區域性關係，但是打亂順序以後，這些畫素間的關係將無法得到利用。”

個人覺得求卷積操作是為了從輸入影象中提取特徵，打亂了畫素這些特徵就提取不到了。“通過使用輸入資料中的小方塊來學習影象特徵，卷積保留了畫素間的空間關係。”

2. CNN_CIFAR10

import torch
import torchvision
import torchvision.transforms as transforms
import matplotlib.pyplot as plt
import numpy as np
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

# 使用GPU訓練，可以在選單 "程式碼執行工具" -> "更改執行時型別" 裡進行設定
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

transform = transforms.Compose(
    [transforms.ToTensor(),
     transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])

# 注意下面程式碼中：訓練的 shuffle 是 True，測試的 shuffle 是 false
# 訓練時可以打亂順序增加多樣性，測試是沒有必要
trainset = torchvision.datasets.CIFAR10(root='./data', train=True,
                                        download=True, transform=transform)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=64,
                                          shuffle=True, num_workers=2)

testset = torchvision.datasets.CIFAR10(root='./data', train=False,
                                       download=True, transform=transform)
testloader = torch.utils.data.DataLoader(testset, batch_size=8,
                                         shuffle=False, num_workers=2)

classes = ('plane', 'car', 'bird', 'cat',
           'deer', 'dog', 'frog', 'horse', 'ship', 'truck')
def imshow(img):
    plt.figure(figsize=(8,8))
    img = img / 2 + 0.5     # 轉換到 [0,1] 之間
    npimg = img.numpy()
    plt.imshow(np.transpose(npimg, (1, 2, 0)))
    plt.show()

# 得到一組影象
images, labels = iter(trainloader).next()
# 展示影象
imshow(torchvision.utils.make_grid(images))
# 展示第一行影象的標籤
for j in range(8):
    print(classes[labels[j]])
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = nn.Conv2d(3, 6, 5)
        self.pool = nn.MaxPool2d(2, 2)
        self.conv2 = nn.Conv2d(6, 16, 5)
        self.fc1 = nn.Linear(16 * 5 * 5, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)

    def forward(self, x):
        x = self.pool(F.relu(self.conv1(x)))
        x = self.pool(F.relu(self.conv2(x)))
        x = x.view(-1, 16 * 5 * 5)
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x

# 網路放到GPU上
net = Net().to(device)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(net.parameters(), lr=0.001)
for epoch in range(10):  # 重複多輪訓練
    for i, (inputs, labels) in enumerate(trainloader):
        inputs = inputs.to(device)
        labels = labels.to(device)
        # 優化器梯度歸零
        optimizer.zero_grad()
        # 正向傳播 +　反向傳播 + 優化 
        outputs = net(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()
        # 輸出統計資訊
        if i % 100 == 0:   
            print('Epoch: %d Minibatch: %5d loss: %.3f' %(epoch + 1, i + 1, loss.item()))

print('Finished Training')
# 得到一組影象
images, labels = iter(testloader).next()
# 展示影象
imshow(torchvision.utils.make_grid(images))
# 展示影象的標籤
for j in range(8):
    print(classes[labels[j]])
outputs = net(images.to(device))
_, predicted = torch.max(outputs, 1)

# 展示預測的結果
for j in range(8):
    print(classes[predicted[j]])
correct = 0
total = 0

for data in testloader:
    images, labels = data
    images, labels = images.to(device), labels.to(device)
    outputs = net(images)
    _, predicted = torch.max(outputs.data, 1)
    total += labels.size(0)
    correct += (predicted == labels).sum().item()

print('Accuracy of the network on the 10000 test images: %d %%' % (
    100 * correct / total))

整個資料集上的準確率只有63%。

3. 使用 VGG16 對 CIFAR10 分類

import torch
import torchvision
import torchvision.transforms as transforms
import matplotlib.pyplot as plt
import numpy as np
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

# 使用GPU訓練，可以在選單 "程式碼執行工具" -> "更改執行時型別" 裡進行設定
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

transform_train = transforms.Compose([
    transforms.RandomCrop(32, padding=4),
    transforms.RandomHorizontalFlip(),
    transforms.ToTensor(),
    transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010))])

transform_test = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010))])

trainset = torchvision.datasets.CIFAR10(root='./data', train=True,  download=True, transform=transform_train)
testset  = torchvision.datasets.CIFAR10(root='./data', train=False, download=True, transform=transform_test)

trainloader = torch.utils.data.DataLoader(trainset, batch_size=128, shuffle=True, num_workers=2)
testloader = torch.utils.data.DataLoader(testset, batch_size=128, shuffle=False, num_workers=2)

classes = ('plane', 'car', 'bird', 'cat',
           'deer', 'dog', 'frog', 'horse', 'ship', 'truck')
           
class VGG(nn.Module):
    def __init__(self):
        super(VGG, self).__init__()
        self.cfg = [64, 'M', 128, 'M', 256, 256, 'M', 512, 512, 'M', 512, 512, 'M']
        self.features = self._make_layers(cfg)
        self.classifier = nn.Linear(2048, 10)

    def forward(self, x):
        out = self.features(x)
        out = out.view(out.size(0), -1)
        out = self.classifier(out)
        return out

    def _make_layers(self, cfg):
        layers = []
        in_channels = 3
        for x in cfg:
            if x == 'M':
                layers += [nn.MaxPool2d(kernel_size=2, stride=2)]
            else:
                layers += [nn.Conv2d(in_channels, x, kernel_size=3, padding=1),
                           nn.BatchNorm2d(x),
                           nn.ReLU(inplace=True)]
                in_channels = x
        layers += [nn.AvgPool2d(kernel_size=1, stride=1)]
        return nn.Sequential(*layers)
        
# 網路放到GPU上 這裡會報錯cfg沒有定義，很迷
###
net = VGG().to(device)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(net.parameters(), lr=0.001)

for epoch in range(10):  # 重複多輪訓練
    for i, (inputs, labels) in enumerate(trainloader):
        inputs = inputs.to(device)
        labels = labels.to(device)
        # 優化器梯度歸零
        optimizer.zero_grad()
        # 正向傳播 +　反向傳播 + 優化 
        outputs = net(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()
        # 輸出統計資訊
        if i % 100 == 0:   
            print('Epoch: %d Minibatch: %5d loss: %.3f' %(epoch + 1, i + 1, loss.item()))

print('Finished Training')

correct = 0
total = 0

for data in testloader:
    images, labels = data
    images, labels = images.to(device), labels.to(device)
    outputs = net(images)
    _, predicted = torch.max(outputs.data, 1)
    total += labels.size(0)
    correct += (predicted == labels).sum().item()

print('Accuracy of the network on the 10000 test images: %.2f %%' % (
    100 * correct / total))

深度學習筆記二：卷積神經網路（CNN）

卷積神經網路CNN

1. 緒論

1. 卷積神經網路的應用

2. 傳統神經網路 VS 卷積神經網路

2. 基本組成結構

1. 卷積 Convolutional Layer

2. 池化

3. 全連線

3. 卷積神經網路典型結構

1. AlexNet

AlexNet分層解析

2. ZFNet

3. VGG

4. GoogleNet

5. ResNet

4. 程式碼練習

1. 卷積神經網路

2. CNN_CIFAR10

3. 使用 VGG16 對 CIFAR10 分類

深度學習筆記二：卷積神經網路（CNN）

吳恩達深度學習筆記（deeplearning.ai）之卷積神經網路（CNN）（上）

機器學習——用卷積神經網路（CNN）實現手寫數字識別

使用卷積神經網路（CNN）做人臉識別的示例程式碼

卷積神經網路（CNN）基礎

卷積神經網路（CNN）

卷積神經網路學習——第二部分：卷積神經網路訓練的基本流程

圖聚類到圖卷積神經網路（一）

python人臉識別專案之學習筆記（五）：卷積神經網路

零基礎入門深度學習 | 第四章：卷積神經網路

深度學習基礎課：卷積神經網路與卷積層的前向傳播推導

第二週：卷積神經網路 Part1

TensorFlow入門教程系列(三)：卷積神經網路

第三週：卷積神經網路 part2

第四周：卷積神經網路 part3

第四周：卷積神經網路 part 3

卷積神經網路相關（1）：卷積神經網路模型的引數量Params和計算量FLOPs簡單程式碼

概覽經典卷積神經網路（LeNet、AlexNet、VggNet、GoogLeNet、SqueezeNet、SqueezeNet、ResNet、DenseNet、DarkNet、ShuffleNe）

3.2 CNN卷積神經網路基礎知識-卷積操作(百度架構師手把手帶你零基礎實踐深度學習原版筆記系列)

3.1 計算機視覺的發展和卷積神經網路概要(百度架構師手把手帶你零基礎實踐深度學習原版筆記系列)

深度學習筆記二：卷積神經網路（CNN）

卷積神經網路CNN

1. 緒論

1. 卷積神經網路的應用

2. 傳統神經網路 VS 卷積神經網路

2. 基本組成結構

1. 卷積 Convolutional Layer

2. 池化

3. 全連線

3. 卷積神經網路典型結構

1. AlexNet

AlexNet分層解析

2. ZFNet

3. VGG

4. GoogleNet

5. ResNet

4. 程式碼練習

1. 卷積神經網路

2. CNN_CIFAR10

3. 使用 VGG16 對 CIFAR10 分類

相關推薦