1. 程式人生 > >文字分類問題中資料不均衡的解決方法的探索

文字分類問題中資料不均衡的解決方法的探索

資料傾斜是資料探勘中的一個常見問題,它嚴重影響的資料分析的最終結果,在分類問題中其影響更是巨大的,例如在之前的文字分類專案中就遇到類別文字集合嚴重不均衡的問題,本文主要結合專案實驗,介紹一下遇到資料不均衡問題時的常見解決方法。

資料傾斜的解決方法

1.過取樣和欠取樣

過取樣

    過取樣是處理樣本不均衡的一個基本解決方法,其實現簡單高效,通過拓展樣本數少的類別的樣本來解決樣本不均衡問題。

    1.直接複製,即不斷複製類別樣本數少的類別樣本。

    2.插值法:通過對樣本歸一化,取樣,求得樣本分佈,極值,均值等,然後根據樣本分佈,極值,均值來生成新樣本來擴充樣本數目。

欠取樣

   與過取樣類似,只是採用減少類別樣本數多的類別的樣本數目

   1.直接刪除

   2.隨機刪除

   3.聚類

2.Loss解決樣本不均衡問題

RBG和Kaiming給出的相當牛逼的方法,這裡不做詳細介紹。
詳情見連結:http://blog.csdn.net/u014380165/article/details/77019084
3.以上各種方法,要麼相當複雜,要麼效果不是那麼好。(針對個人文字分類專案)
首先凱明大神的focal loss 方法,針對像深度神經網路這些複雜的模型,具有很好的使用價值,但是針對傳統分類器,小樣本集情況下,實施有一定的難度。而簡單過取樣和欠取樣對與文字分類問題效果幾乎為0。於是乎,本文簡單介紹一下過取樣中不是簡單的樣本複製,二是採用文字生成的方式,解決文字樣本不均衡的問題。 本文首先分析樣本數少的類別,通過文字句法依賴分析,文字詞性標記分析詞的相關屬性,然後採用同義詞替換的方式生成新的文字。方法簡單有效。實測效果:
predict_train_Accuracy 98.37% 82.51%
predict_test_Accuracy 70.78% 81.32%