1. 程式人生 > >在資料預處理中,如何填充缺失值?如何判斷異常值?

在資料預處理中,如何填充缺失值?如何判斷異常值?

缺失值的處理:

(1) 刪除缺失值;

(2) 填補缺失值:

       <1>均值法填補

       根據缺失值的屬性相關係數最大的那個屬性把資料分成幾個組,然後分別計算每個組的均值,把這些均值放入到缺失的數值裡面就可以了。

       <2>最近距離決定填補法

       假設現在為時間y,前一段時間為時間x,然後根據x的值去把y的值填補好。

如何判斷異常值:

(1)基於正態分佈的一元離群點檢測方法:根據正態分佈的定義可知,距離平均值3δ之外的概率為 P(|x-μ|>3δ) <= 0.003 ,這屬於極小概率事件。在預設情況下我們可以認定,距離超過平均值3δ的樣本是不存在的。 因此,當樣本距離平均值大於3δ,則認定該樣本為異常值。

(2)箱型圖分析:箱型圖提供了一個識別異常值的標準,即大於或小於箱型圖設定的上下界的數值即為異常值。首先我們定義下上四分位和下四分位。上四分位我們設為 U,表示的是所有樣本中只有1/4的數值大於U 。同理,下四分位我們設為 L,表示的是所有樣本中只有1/4的數值小於L。我們設上四分位與下四分位的差值為IQR,即:IQR=U-L。那麼,上界為 U+1.5IQR,下界為:L-1.5IQR。箱型圖選取異常值比較客觀,在識別異常值方面有一定的優越性。