在資料預處理中，如何填充缺失值？如何判斷異常值？

阿新 • • 發佈：2018-12-15

缺失值的處理：

(1) 刪除缺失值；

(2) 填補缺失值：

<1>均值法填補

根據缺失值的屬性相關係數最大的那個屬性把資料分成幾個組，然後分別計算每個組的均值，把這些均值放入到缺失的數值裡面就可以了。

<2>最近距離決定填補法

假設現在為時間y,前一段時間為時間x，然後根據x的值去把y的值填補好。

如何判斷異常值：

(1)基於正態分佈的一元離群點檢測方法：根據正態分佈的定義可知，距離平均值3δ之外的概率為 P(|x-μ|>3δ) <= 0.003 ，這屬於極小概率事件。在預設情況下我們可以認定，距離超過平均值3δ的樣本是不存在的。因此，當樣本距離平均值大於3δ，則認定該樣本為異常值。

(2)箱型圖分析：箱型圖提供了一個識別異常值的標準，即大於或小於箱型圖設定的上下界的數值即為異常值。首先我們定義下上四分位和下四分位。上四分位我們設為 U，表示的是所有樣本中只有1/4的數值大於U 。同理，下四分位我們設為 L，表示的是所有樣本中只有1/4的數值小於L。我們設上四分位與下四分位的差值為IQR，即：IQR=U-L。那麼，上界為 U+1.5IQR，下界為：L-1.5IQR。箱型圖選取異常值比較客觀，在識別異常值方面有一定的優越性。

在資料預處理中，如何填充缺失值？如何判斷異常值？

在資料預處理中，如何填充缺失值？如何判斷異常值？

資料預處理中的缺失值問題

Python：sklearn資料預處理中fit(),transform()與fit_transform()的區別

資料預處理之定量特徵二值化與定性特徵啞變數編碼

資料預處理中歸一化（Normalization）與損失函式中正則化（Regularization）解惑

資料預處理 - 定位空值，用空值的上一個值填充

python資料預處理之缺失值簡單處理，特徵選擇

資料預處理--缺失值和異常值的處理

資料預處理之缺失值處理

關於使用Sklearn進行資料預處理 —— 缺失值（Missing Value）處理

Python資料預處理之---統計學的t檢驗，卡方檢驗以及均值，中位數等

資料預處理——拉格朗日缺失值填補。

ACM中的幾個小技巧(離散化，尺取法，資料預處理)

R語言|資料預處理--3缺失值離群點處理

機器學習（一）：用sklearn進行資料預處理：缺失值處理、資料標準化、歸一化

pandas處理，填充缺失資料

機器學習第2篇：資料預處理（缺失值）

機器學習第3篇：資料預處理（使用插補法處理缺失值）

機器學習第4篇：資料預處理（sklearn 插補缺失值）

【ADNI】資料預處理（1）SPM，CAT12

在資料預處理中，如何填充缺失值？如何判斷異常值？

相關推薦