【機器學習】偽標籤（Pseudo-Labelling）的介紹:一種半監督機器學習技術

阿新 • • 發佈：2022-05-02

我們在解決監督機器學習的問題上取得了巨大的進步。這也意味著我們需要大量的資料來構建我們的影象分類器。但是，這並不是人類思維的學習方式。一個人的大腦不需要上百萬個數據來進行訓練，需要通過多次迭代來完成相同的影象來理解一個主題。它所需要的只是在基礎模式上用幾個指導點訓練自己。顯然，我們在當前的機器學習方法中缺少一些東西。我們能否可以建立一個系統，能夠要求最低限度的監督，並且能夠自己掌握大部分的任務。

本文將介紹一種稱為偽標籤（Pseudo-Labelling）的技術。我會給出一個直觀的解釋，說明偽標籤是什麼，然後提供一個實際的實現。

內容

什麼是半監督學習?
不加標籤的資料有何幫助?
介紹偽標籤

實現半監督學習
取樣率的依賴
半監督學習的應用

什麼是半監督學習?

比方說，我們有一個簡單的影象分類問題。訓練資料由兩個被標記的影象Eclipse（日食）和Non-eclipse（非日食）組成，如下所示。

我們需要從非日食影象中對日食的影象進行分類。但是，問題是我們需要在僅僅兩張圖片的訓練集上建立我們的模型。

因此，為了應用任何監督學習演算法，我們需要更多的資料來構建一個魯棒性的模型。為了解決這個問題，我們找到了一個簡單的解決方案，我們從網上下載一些圖片來增加我們的訓練資料。

但是，對於監督的方法，我們也需要這些影象的標籤。因此，我們手動將每個影象分類為如下所示的類別。

在對這些資料進行監督的演算法之後，我們的模型肯定會比在訓練資料中包含兩個影象的模型表現得更突出。但是這種方法只適用於解決較小目的的問題，因為對大型資料集的註釋可能非常困難且昂貴。

因此，我們定義了一種不同型別的學習，即半監督學習，即使用標籤資料(受監督的學習)和不加標籤的資料(無監督的學習)。

因此，讓我們瞭解不加標籤的資料如何有助於改進我們的模型。

不加標籤的資料有何幫助?

考慮如下所示的情況：

你只有兩個屬於兩個不同類別的資料點，而所繪製的線是任何受監督模型的決策邊界。現在，假設我們將一些不加標記的資料新增到這個資料中，如下圖所示。

如果我們注意到上面兩個影象之間的差異，你可以說，在添加了不加標籤的資料之後，我們的模型的決策邊界變得更加準確。因此，使用不加標籤資料的好處是:

1.被貼上標籤的資料既昂貴又困難，而沒有標籤的資料則是充足而廉價的。

2.它通過更精確的決策邊界來改進模型的魯棒性。

現在，我們對半監督學習有了一個基本的瞭解。有多種不同的技術在應用著半監督學習，在本文中，我們將嘗試理解一種稱為偽標籤的技術。

介紹偽標籤

在這種技術中，我們不需要手動標記不加標籤的資料，而是根據標籤的資料給出近似的標籤。讓我們通過分解如下圖所示的步驟來使它更容易理解。

第一步：使用標籤資料訓練模型

第二步：使用訓練的模型為不加標籤的資料預測標籤

第三步：同時使用pseudo和標籤資料集重新訓練模型

在第三步中訓練的最終模型用於對測試資料的最終預測。

實現半監督學習

現在，我們將使用來自AV資料處理平臺的大市場銷售（Big Mart Sales）問題。因此，讓我們從下載資料部分中的訓練和測試檔案開始。

那麼，讓我們從匯入基本庫開始。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
from sklearn.preprocessing import LabelEncoder

現在，看一下我們下載的訓練和測試檔案，並進行一些基本的預處理，以形成模型。

train = pd.read_csv('/Users/shubhamjain/Downloads/AV/Big Mart/train.csv')
test = pd.read_csv('/Users/shubhamjain/Downloads/AV/Big Mart/test.csv')

# preprocessing

### mean imputations 
train['Item_Weight'].fillna((train['Item_Weight'].mean()), inplace=True)
test['Item_Weight'].fillna((test['Item_Weight'].mean()), inplace=True)

### reducing fat content to only two categories 
train['Item_Fat_Content'] = train['Item_Fat_Content'].replace(['low fat','LF'], ['Low Fat','Low Fat']) 
train['Item_Fat_Content'] = train['Item_Fat_Content'].replace(['reg'], ['Regular']) 
test['Item_Fat_Content'] = test['Item_Fat_Content'].replace(['low fat','LF'], ['Low Fat','Low Fat']) 
test['Item_Fat_Content'] = test['Item_Fat_Content'].replace(['reg'], ['Regular'])

## for calculating establishment year
train['Outlet_Establishment_Year'] = 2013 - train['Outlet_Establishment_Year'] 
test['Outlet_Establishment_Year'] = 2013 - test['Outlet_Establishment_Year']

### missing values for size
train['Outlet_Size'].fillna('Small',inplace=True)
test['Outlet_Size'].fillna('Small',inplace=True)

### label encoding cate. var.
col = ['Outlet_Size','Outlet_Location_Type','Outlet_Type','Item_Fat_Content']
test['Item_Outlet_Sales'] = 0
combi = train.append(test)
number = LabelEncoder()
for i in col:
 combi[i] = number.fit_transform(combi[i].astype('str'))
 combi[i] = combi[i].astype('int')
train = combi[:train.shape[0]]
test = combi[train.shape[0]:]
test.drop('Item_Outlet_Sales',axis=1,inplace=True)

## removing id variables 
training = train.drop(['Outlet_Identifier','Item_Type','Item_Identifier'],axis=1)
testing = test.drop(['Outlet_Identifier','Item_Type','Item_Identifier'],axis=1)
y_train = training['Item_Outlet_Sales']
training.drop('Item_Outlet_Sales',axis=1,inplace=True)

features = training.columns
target = 'Item_Outlet_Sales'

X_train, X_test = training, testing

從不同的監督學習演算法開始，讓我們來看看哪一種演算法給了我們最好的結果。

from xgboost import XGBRegressor
from sklearn.linear_model import BayesianRidge, Ridge, ElasticNet
from sklearn.neighbors import KNeighborsRegressor
from sklearn.ensemble import RandomForestRegressor, ExtraTreesRegressor, GradientBoostingRegressor
#from sklearn.neural_network import MLPRegressor

from sklearn.metrics import mean_squared_error
from sklearn.model_selection import cross_val_score

model_factory = [
 RandomForestRegressor(),
 XGBRegressor(nthread=1),
 #MLPRegressor(),
 Ridge(),
 BayesianRidge(),
 ExtraTreesRegressor(),
 ElasticNet(),
 KNeighborsRegressor(),
 GradientBoostingRegressor()
]

for model in model_factory:
 model.seed = 42
 num_folds = 3

scores = cross_val_score(model, X_train, y_train, cv=num_folds, scoring='neg_mean_squared_error')
 score_description = " %0.2f (+/- %0.2f)" % (np.sqrt(scores.mean()*-1), scores.std() * 2)

print('{model:25} CV-5 RMSE: {score}'.format(
 model=model.__class__.__name__,
 score=score_description
 ))

我們可以看到XGB演算法為我們提供了最佳的模型效能。注意，我沒有為了本文的簡單性而調整任何演算法的引數。

現在，讓我們來實現偽標籤，為了這個目的，我將使用測試資料作為不加標籤的資料。

from sklearn.utils import shuffle
 from sklearn.base import BaseEstimator, RegressorMixin

class PseudoLabeler(BaseEstimator, RegressorMixin):
 '''
 Sci-kit learn wrapper for creating pseudo-lebeled estimators.
 '''

def __init__(self, model, unlabled_data, features, target, sample_rate=0.2, seed=42):
 '''
 @sample_rate - percent of samples used as pseudo-labelled data
 from the unlabelled dataset
 '''
 assert sample_rate <= 1.0, 'Sample_rate should be between 0.0 and 1.0.'

self.sample_rate = sample_rate
 self.seed = seed
 self.model = model
 self.model.seed = seed

self.unlabled_data = unlabled_data
 self.features = features
 self.target = target

def get_params(self, deep=True):
 return {
 "sample_rate": self.sample_rate,
 "seed": self.seed,
 "model": self.model,
 "unlabled_data": self.unlabled_data,
 "features": self.features,
 "target": self.target
 }

def set_params(self, **parameters):
 for parameter, value in parameters.items():
 setattr(self, parameter, value)
 return self

def fit(self, X, y):
 '''
 Fit the data using pseudo labeling.
 '''

augemented_train = self.__create_augmented_train(X, y)
 self.model.fit(
 augemented_train[self.features],
 augemented_train[self.target]
 )

return self



def __create_augmented_train(self, X, y):
 '''
 Create and return the augmented_train set that consists
 of pseudo-labeled and labeled data.
 '''
 num_of_samples = int(len(self.unlabled_data) * self.sample_rate)

# Train the model and creat the pseudo-labels
 self.model.fit(X, y)
 pseudo_labels = self.model.predict(self.unlabled_data[self.features])

# Add the pseudo-labels to the test set
 pseudo_data = self.unlabled_data.copy(deep=True)
 pseudo_data[self.target] = pseudo_labels

# Take a subset of the test set with pseudo-labels and append in onto
 # the training set
 sampled_pseudo_data = pseudo_data.sample(n=num_of_samples)
 temp_train = pd.concat([X, y], axis=1)
 augemented_train = pd.concat([sampled_pseudo_data, temp_train])

return shuffle(augemented_train)

def predict(self, X):
 '''
 Returns the predicted values.
 '''
 return self.model.predict(X)

def get_model_name(self):
 return self.model.__class__.__name__

看起來很複雜，但是你不必為此擔心，因為它是我們在上面學習的方法的相同實現。因此，每次需要執行偽標籤時，都要複製相同的程式碼。

現在，讓我們來檢查一下資料集上的偽標籤的結果。

model_factory = [
 XGBRegressor(nthread=1),
 PseudoLabeler(
 XGBRegressor(nthread=1),
 test,
 features,
 target,
 sample_rate=0.3
 ),
]

for model in model_factory:
 model.seed = 42
 num_folds = 8
 
 scores = cross_val_score(model, X_train, y_train, cv=num_folds, scoring='neg_mean_squared_error', n_jobs=8)
 score_description = "MSE: %0.4f (+/- %0.4f)" % (np.sqrt(scores.mean()*-1), scores.std() * 2)

print('{model:25} CV-{num_folds} {score_cv}'.format(
 model=model.__class__.__name__,
 num_folds=num_folds,
 score_cv=score_description
 ))

在這種情況下，我們得到了一個rmse值，這個值比任何受監督的學習演算法都要小。sample_rate（取樣率）是其中一個引數，它表示不加標籤資料的百分比被用作建模目的的偽標籤。

因此，讓我們檢查一下采樣率對偽標籤效能的依賴性。

取樣率的依賴

為了找出樣本率對偽標籤效能的依賴，讓我們在這兩者之間畫一個圖。在這裡，我只使用了兩種演算法來表示對時間約束（time constraint）的依賴，但你也可以嘗試其他演算法。

sample_rates = np.linspace(0, 1, 10)

def pseudo_label_wrapper(model):
 return PseudoLabeler(model, test, features, target)

# List of all models to test
model_factory = [
 RandomForestRegressor(n_jobs=1),
 XGBRegressor(),
]

# Apply the PseudoLabeler class to each model
model_factory = map(pseudo_label_wrapper, model_factory)

# Train each model with different sample rates
results = {}
num_folds = 5

for model in model_factory:
 model_name = model.get_model_name()
 print('%s' % model_name)

results[model_name] = list()
 for sample_rate in sample_rates:
 model.sample_rate = sample_rate
 
 # Calculate the CV-3 R2 score and store it
 scores = cross_val_score(model, X_train, y_train, cv=num_folds, scoring='neg_mean_squared_error', n_jobs=8)
 results[model_name].append(np.sqrt(scores.mean()*-1))

plt.figure(figsize=(16, 18))

i = 1
for model_name, performance in results.items(): 
 plt.subplot(3, 3, i)
 i += 1
 
 plt.plot(sample_rates, performance)
 plt.title(model_name)
 plt.xlabel('sample_rate')
 plt.ylabel('RMSE')


plt.show()

我們可以看到，rmse對於取樣率的特定值來說是最小值，這對於演算法來說是不同的。因此，對取樣率進行調優是很重要的，以便在使用偽標籤時獲得更好的結果。

半監督學習的應用

在過去，半監督學習的應用數量有限，但目前在這一領域仍有很多工作要做。下面列出了一些我感興趣的應用。

1.多模態半監督學習（Multimodal semi-supervised learning）影象分類

一般來說，在影象分類中，目標是對影象進行分類，無論它屬於這個類別還是不屬於類別。本文不僅利用影象進行建模，還利用半監督學習的方法來改進分類器，從而提高分類器的使用效果。

2.檢測人口販賣

人口販賣是最殘忍的犯罪之一，也是法律執行所面臨的挑戰問題之一。半監督學習使用標籤和不加標籤的資料，以產生比一般方法更好的結果。

本文的完整程式碼：https://github.com/shubhamjn1/Pseudo-Labelling—A-Semi-supervised-learning-technique

【機器學習】偽標籤（Pseudo-Labelling）的介紹:一種半監督機器學習技術

我們在解決監督機器學習的問題上取得了巨大的進步。這也意味著我們需要大量的資料來構建我們的影象分類器。但是，這並不是人類思維的學習方式。一個人的大腦不需要上百萬個數據來進行訓練，需要通過多次迭代來完成相

【自然框架】QuickPager分頁控制元件，新增一種分頁方式——偽URL分頁（Postback版）

適用場景　　先說一下偽URL分頁的適用場景。在網站的網頁裡實現查詢功能，如果查詢條件比較少的話，還比較好辦，把查詢條件放到URL裡面傳遞即可。但是如果查詢條件過多，就會照成URL的長度過長。既不好看，編寫起

【解題報告】分組揹包（YBT 1272）

**終於從資料結構的魔圈中走出來啦！！！，今天我終於要寫一篇關於動態規劃的題目啦，哈哈哈！ **

【重做】滑動視窗（單調佇列）

沒什麼特殊的，與以前的相比會條理一些吧。 1 #include<bits/stdc++.h> 2 #define rep(i,a,n) for(register int i = a;i <= n;++i)

【Oracle Database】Oracle DataGuard（single-single）

[oracle@monkey01 ~]$ sqlplus / as sysdba SQL> alter database force logging; Database altered. SQL> col force_logging for a15

【Oracle Database】Oracle GoldenGate （single-single）

源端資料庫配置[root@wallet01 ~]# su - oracle [oracle@wallet01 ~]$ sqlplus / as sysdba SQL> create tablespace goldengate datafile \'/home/oracle/oradata/wallet/ogg01.dbf\' size 1024M;

【Go語言】深入淺出chan（問題+分析）

技術標籤：Go 文章目錄 chan簡介問題引入有緩衝通道 chan簡介 chan 是go的一個關鍵字，也就是通道的意思，通道是goroutine之間通訊和同步的重要元件，也就是go通過通訊來共享記憶體的載體

【資料結構】分塊（2/8）希望能抓到8月份的小尾巴

目錄分塊分塊的意思如何寫分塊處理最後一塊的兩種寫法藍書（開闢新的塊）Pecco（拉長最後一塊至包含到結尾）分塊的用途實現對區間l到r的加減，並最終能夠查詢到區間內某一個點的值。區間修改（加減部分）LOJ#6277.

【資料結構篇】連結串列（c語言）

title: 【資料結構篇】連結串列 date: 2022-02-15 10:32:54 tags: - 資料結構 - 連結串列 - C語言

【前端】【H5 API】地理定位（獲取經緯度）

H5 API 地理定位地理定位在日常生活中應用比較廣泛，例如，網際網路打車、線上地圖等。在HTML 5的規範中，增加了獲取使用者地理位置資訊的介面Geolocation，開發者可以通過經緯度來獲取使用者的地理位置資訊，Geol

【廢墟圖書館】日落黃昏（戰鬥書頁）

對外展示：【藝術】4光旭日東昇該書頁“進攻型”骰子威力增減效果×2

【luogu P6621】【LOJ 3301】魔法商店（線性基）（保序迴歸）

魔法商店題目連結：luogu P6621 / LOJ 3301 題目大意給你 n 個物品，每個有魅力值和價格。

【luogu P8340】山河重整（容斥）（DP）

山河重整題目連結：luogu P8340 題目大意有 1~n 這 n 個數，問你有多少種選的方案，使得 1~n 中的每個數都可以表示為你選的其中一些數的和。

【機器學習】數值分析（1）—— 任意方程求根

任意方程求根簡介方程和函式是代數數學中最為重要的內容之一，從初中直到大學，我們都在研究著方程與函式，甚至我們將圖形代數化，從而發展出了代數幾何、解析幾何的內容。而在方程與函式中，我們研究其性質最多的

【作業系統學習】程序管理（六）

1. 程序基本概念程序：一個具有一定獨立功能的程式在一個數據集合上的一次動態執行過程。

【作業系統學習】同步機制（九）

1. 同步機制概念獨立的執行緒不和其他執行緒共享資源或狀態確定性->輸入狀態決定結果可重現->能夠重現起始條件排程順序不重要合作執行緒在多個執行緒中共享狀態不確定性不可重現不確定性和不可重現意味著bug可

【面試專欄】JAVA CAS（Conmpare And Swap）原理

1. CAS簡介在電腦科學中，比較和交換（Conmpare And Swap）是用於實現多執行緒同步的原子指令。它將記憶體位置的內容與給定值進行比較，只有在相同的情況下，將該記憶體位置的內容修改為新的給定值。這是作為單

【洛谷6631】[ZJOI2020] 序列（思維題）

點此看題面大致題意：給定一個序列，每次操作你可以選擇一段區間，然後將其中所有數/所有下標為奇數的數/所有下標為偶數的數都減\$1\$，求最少操作多少次能夠讓全部數都變成\$0\$。

Luogu P3388 【模板】割點（割頂）

思路很好，這又是一道模板。求割點的tarjan和求強連通分量的tarjan原理相同，但是實際寫法並不完全相同。要注意的是，對於一個點u，它在不同情況下要滿足以下兩個條件才能稱之為割點：

【線段樹】衛星覆蓋（NOI97）-矩陣切割

Description 　　SERCOI（Space-Earth Resource Cover-Observe lnstitute）是一個致力於利用衛星技術對空間和地球資源進行覆蓋觀測的組織。現在他們研製成功一種新型資源觀測衛星-SERCOI-308。這種衛星可以覆蓋空間直

【機器學習】偽標籤（Pseudo-Labelling）的介紹:一種半監督機器學習技術

內容

什麼是半監督學習?

不加標籤的資料有何幫助?

介紹偽標籤

實現半監督學習

取樣率的依賴

半監督學習的應用

相關推薦