文字分類問題中資料不均衡的解決方法的探索

阿新 • • 發佈：2019-01-23

資料傾斜是資料探勘中的一個常見問題，它嚴重影響的資料分析的最終結果，在分類問題中其影響更是巨大的，例如在之前的文字分類專案中就遇到類別文字集合嚴重不均衡的問題，本文主要結合專案實驗，介紹一下遇到資料不均衡問題時的常見解決方法。

資料傾斜的解決方法

1.過取樣和欠取樣

過取樣

過取樣是處理樣本不均衡的一個基本解決方法，其實現簡單高效，通過拓展樣本數少的類別的樣本來解決樣本不均衡問題。

1.直接複製，即不斷複製類別樣本數少的類別樣本。

2.插值法：通過對樣本歸一化，取樣，求得樣本分佈，極值，均值等，然後根據樣本分佈，極值，均值來生成新樣本來擴充樣本數目。

欠取樣

與過取樣類似，只是採用減少類別樣本數多的類別的樣本數目

1.直接刪除

2.隨機刪除

3.聚類

2.Loss解決樣本不均衡問題

RBG和Kaiming給出的相當牛逼的方法，這裡不做詳細介紹。
詳情見連結：http://blog.csdn.net/u014380165/article/details/77019084

3.以上各種方法，要麼相當複雜，要麼效果不是那麼好。（針對個人文字分類專案）

首先凱明大神的focal loss 方法，針對像深度神經網路這些複雜的模型，具有很好的使用價值，但是針對傳統分類器，小樣本集情況下，實施有一定的難度。而簡單過取樣和欠取樣對與文字分類問題效果幾乎為0。於是乎，本文簡單介紹一下過取樣中不是簡單的樣本複製，二是採用文字生成的方式，解決文字樣本不均衡的問題。本文首先分析樣本數少的類別，通過文字句法依賴分析，文字詞性標記分析詞的相關屬性，然後採用同義詞替換的方式生成新的文字。方法簡單有效。實測效果：

predict_train_Accuracy	98.37%	82.51%
predict_test_Accuracy	70.78%	81.32%

文字分類問題中資料不均衡的解決方法的探索

資料傾斜的解決方法

1.過取樣和欠取樣

過取樣

2.Loss解決樣本不均衡問題

3.以上各種方法，要麼相當複雜，要麼效果不是那麼好。（針對個人文字分類專案）

文字分類問題中資料不均衡的解決方法的探索

Docker for Windows在windows系統中安裝不成功解決方法

Left Join 右表資料不唯一解決方法

svn中日誌不展示解決方法記錄

如何解決分類問題中樣本不均衡問題

用maven在eclipse中建立web專案時不能建立三個資料夾的解決方法

Eclipse ADT中的logcat不顯示解決方法

ajax傳送中文字符到後臺亂碼的解決方法

機器學習中對不均衡數據的處理方法

vue2.0 element-ui中el-upload的before-upload方法返回false時submit()不生效解決方法

Windows中Nginx配置nginx.conf不生效解決方法

Oracle 表，表中資料不小心刪除找回的方法

PageHelper在springboot中不生效解決方法

TortoiseSVN資料夾及檔案圖示不顯示解決方法

在深度學習中處理不均衡資料集

在函式‘main’中: 警告：隱式宣告與內建函式‘printf’不相容解決方法

系統技術非業餘研究 » oprofile抓不到取樣資料問題和解決方法

php.ini中時區設定不成功解決方法

關於微信小程式this.data方法的不能實現資料呼叫的解決方法

解決vue在IE中,資料不同步,檢視不更新,開啟ie除錯時資料資料檢視就更新了的問題

文字分類問題中資料不均衡的解決方法的探索

資料傾斜的解決方法

1.過取樣和欠取樣

過取樣

2.Loss解決樣本不均衡問題

3.以上各種方法，要麼相當複雜，要麼效果不是那麼好。（針對個人文字分類專案）

相關推薦