機器學習sklearn（九）：特徵工程（二）特徵離散化（二）特徵二值化

阿新 • • 發佈：2021-06-19

特徵二值化是將數值特徵用閾值過濾得到布林值的過程。這對於下游的概率型模型是有用的，它們假設輸入資料是多值伯努利分佈(Bernoulli distribution)。例如這個示例sklearn.neural_network.BernoulliRBM。

即使歸一化計數(又名術語頻率)和TF-IDF值特徵在實踐中表現稍好一些，文字處理團隊也常常使用二值化特徵值(這可能會簡化概率估計)。

相比於Normalizer，實用程式類Binarizer也被用於sklearn.pipeline.Pipeline的早期步驟中。因為每個樣本被當做是獨立於其他樣本的，所以fit方法是無用的:

>>> X = [[ 1., -1.,  2.],
...      [  
2.,  0.,  0.],
...      [ 0.,  1., -1.]]

>>> binarizer = preprocessing.Binarizer().fit(X)  # fit does nothing
>>> binarizer
Binarizer(copy=True, threshold=0.0)

>>> binarizer.transform(X)
array([[ 1.,  0.,  1.],
 [ 1.,  0.,  0.],
 [ 0.,  1.,  0.]])

也可以為二值化器賦一個閾值:

>>> binarizer = preprocessing.Binarizer(threshold=1.1)
 
>>> binarizer.transform(X)
array([[ 0.,  0.,  1.],
 [ 1.,  0.,  0.],
 [ 0.,  0.,  0.]])

相比於StandardScaler和Normalizer類的情況，預處理模組提供了一個相似的函式binarize，以便不需要轉換介面時使用。

稀疏輸入

binarize以及Binarizer接收來自scipy.sparse的密集類陣列資料以及稀疏矩陣作為輸入。

對於稀疏輸入，資料被轉化為壓縮的稀疏行形式(參見scipy.sparse.csr_matrix)。為了避免不必要的記憶體複製，推薦在上游選擇CSR表示。

class

sklearn.preprocessing.Binarizer(*,threshold=0.0,copy=True)

Binarize data (set feature values to 0 or 1) according to a threshold.

Values greater than the threshold map to 1, while values less than or equal to the threshold map to 0. With the default threshold of 0, only positive values map to 1.

Binarization is a common operation on text count data where the analyst can decide to only consider the presence or absence of a feature rather than a quantified number of occurrences for instance.

It can also be used as a pre-processing step for estimators that consider boolean random variables (e.g. modelled using the Bernoulli distribution in a Bayesian setting).

機器學習sklearn（九）：特徵工程（二）特徵離散化（二）特徵二值化

機器學習sklearn（九）：特徵工程（二）特徵離散化（二）特徵二值化

機器學習sklearn（十八）：特徵工程（九）特徵編碼（三）類別特徵編碼（一）標籤編碼 LabelEncoder

機器學習sklearn（十九）：特徵工程（十）特徵編碼（四）類別特徵編碼（二）標籤編碼 OrdinalEncoder

機器學習sklearn（八）：特徵工程（一）特徵離散化（一）K-bins 離散化

機器學習sklearn（十二）：特徵工程（三）特徵組合與交叉（一）多項式特徵

機器學習sklearn（十三）：特徵工程（三）特徵編碼（一）特徵雜湊(一)

機器學習sklearn（十四）：特徵工程（五）特徵編碼（二）特徵雜湊(二)

機器學習sklearn（十五）：特徵工程（六）特徵選擇（一）主成分分析PCA

機器學習sklearn（十六）：特徵工程（七）特徵選擇（二）卡方選擇（一）卡方檢驗

機器學習sklearn（十七）：特徵工程（八）特徵選擇（三）卡方選擇（二）卡方檢驗

機器學習sklearn（二十）：特徵工程（十一）特徵編碼（五）類別特徵編碼（三）獨熱編碼 OneHotEncoder

機器學習sklearn（三十一）：Pipeline（管道）和 FeatureUnion（特徵聯合）: 合併的評估器

機器學習sklearn（三十九）：演算法例項（八）分類（四）隨機森林分類器 RandomForestRegressor

機器學習sklearn（四十）：演算法例項（九）迴歸（二）隨機森林迴歸器 RandomForestRegressor

機器學習sklearn（45）：特徵工程（十二）特徵編碼（六）處理分型別特徵：編碼與啞變數/處理連續型特徵：二值化與分段

機器學習sklearn（47）：特徵工程（十四）特徵選擇（五）Embedded嵌入法/Wrapper包裝法

機器學習sklearn（72）：演算法例項（二十九）分類（十六）SVM（七）sklearn.svm.SVC（六）使用SVC時的其他考慮（選）

機器學習sklearn（五）：資料集處理（二）缺失值處理

機器學習sklearn（五）：資料處理（二）缺失值處理

機器學習sklearn（六）：資料處理（三）數值型資料處理（一）歸一化( MinMaxScaler/MaxAbsScaler)

機器學習sklearn（九）： 特徵工程（二）特徵離散化（二）特徵二值化

相關推薦

機器學習sklearn（九）：特徵工程（二）特徵離散化（二）特徵二值化