pandas進行one-hot編碼

阿新 • • 發佈：2018-12-15

1.讀取資料

本文采用的是美國成年人收入的資料集

import pandas as pd
from IPython.display import display
data = pd.read_csv(
    adult_path, header=None, index_col=False,
    names=['age', 'workclass', 'fnlwgt', 'education',  'education-num',
           'marital-status', 'occupation', 'relationship', 'race', 'gender',
           'capital-gain', 'capital-loss', 'hours-per-week', 'native-country',
           'income'])

2.檢查字串的分類資料

使用pandas Series 的value_counts函式，顯示類別和出現次數

print(data.gender.value_counts())
#輸出
Male      21790
Female    10771
Name: gender, dtype: int64

3.對資料進行one-hot編碼

利用get_dummies函式自動轉換物件（通常預設類別的結果是字串）

print("Original features:\n", list(data.columns), "\n")
data_dummies = pd.get_dummies(data)
print("Features after get_dummies:\n", list(data_dummies.columns))

display(data_dummies.head(n=2))

3.將結果存到NumPy陣列

利用values屬性將data_dummies資料框轉換為NumPy，作為訓練集。僅取包含特徵的列（本例是從age到occupation_Transport-moving），不包含目標值。

features = data_dummies.loc[:, 'age':'occupation_ Transport-moving']
# extract NumPy arrays
X = features.values
y = data_dummies['income_ >50K'].values

4.訓練模型

本例進行logic迴歸

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
logreg = LogisticRegression()
logreg.fit(X_train, y_train)
print("Test score: {:.2f}".format(logreg.score(X_test, y_test)))
#輸出
Test score: 0.81

此外，有些分類變數的值是數字，此時直接呼叫get_dummies不能為其編碼。為了解決這個問題：首先，將資料框中的數值列轉換成字串；然後，使用colums引數顯示地給出想要編碼的列

demo_df['Integer Feature'] = demo_df['Integer Feature'].astype(str)
display(pd.get_dummies(demo_df, columns=['Integer Feature', 'Categorical Feature']))

pandas進行one-hot編碼

1.讀取資料本文采用的是美國成年人收入的資料集 import pandas as pd from IPython.display import display data = pd.read_csv( adult_path, header=None, index

pandas使用get_dummies進行one-hot編碼

一、對資料進行編碼分兩種情況 1、原始資料的離散特徵取值之間沒有大小關係，直接進行編碼即可，比如週一週二， 2、原始資料有大小關係，比如成績分數之類的，直接進行數值對映即可第一種情況，不進行數值對映，直接進行one-hot編碼程式碼如下： import pa

pandas的get_dummies進行one-hot編碼

pandas.get_dummies(data, prefix=None, prefix_sep=’_’, dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None) 說下常用引數 data:的話就是我們

Python: 進行one-hot編碼

在機器學習中，one-hot編碼是對分類特徵進行預處理的常用手段。本篇部落格講解了如何利用sklearn來進行one-hot編碼。舉一個簡單的例子： >> from sklearn.preprocessing import OneHotEncoder >

對one hot 編碼的理解，sklearn. preprocessing.OneHotEncoder()如何進行fit()的？

查閱了很多資料，逐漸知道了one hot 的編碼，但是始終沒理解sklearn. preprocessing.OneHotEncoder()如何進行fit()的？自己琢磨了一下，後來終於明白是怎麼回事了。先看one hot 的編碼的理解：引用至：https://blog.csdn.net/wy250229

Python中使用pandas.get_dummies()生成one-hot編碼標籤

one-hot編碼是監督學習中經常對標籤處理的一種方式。假設我們有一組標籤： import numpy as np import pandas as pd labels = np.array(['Cat', 'Dog', 'Dog', 'Cat', 'Bird', 'Fish'])

字元級或單詞級的one-hot編碼 VS 詞嵌入（keras實現）

1. one-hot編碼 # 字符集的one-hot編碼 import string samples = ['zzh is a pig','he loves himself very much','pig pig han'] characters

keras one-hot編碼

本文主要介紹使用keras對資料進行one-hot編碼。下面是示例程式碼： import numpy as np # 初始資料; 每個“樣本”一個條目 samples = ['The cat sat on the mat.', 'The dog ate my homework.'] #

python numpy陣列和one-hot編碼相互轉換

import numpy as np from keras.utils import to_categorical data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 7] data

python實現基於單詞級one-hot編碼和字元級的one-hot編碼

one-hot編碼是將標記轉換為向量的最常用、最基本的方法。它將每個單詞與一個唯一的整數索引相關聯，然後將這個整數索引 i 轉換為長度為N的二進位制向量（N是詞表大小），這個向量只有第i個元素是1，其餘元素都為0. 單詞級的one-hot編碼 import numpy

one hot 編碼及資料歸一化

問題由來在很多機器學習任務中，特徵並不總是連續值，而有可能是分類值。例如，考慮一下的三個特徵： ["male", "female"] ["from Europe", "from US", "from Asia"] ["uses Firefox", "uses Chrome", "uses

詳細詳解One Hot編碼-附程式碼

機器學習演算法無法直接用於資料分類。資料分類必須轉換為數字才能進一步進行。在本教程中，你將發現如何將輸入或輸出的序列資料轉換為一種熱編碼，以便於你在Python中深度學習的序列分類問題中使用。本教程分為4部分： 1.什麼是One-Hot編碼？ 2.手動編寫One-Hot編碼 3.One

分類時為什麼都選擇one hot編碼

這裡可以做一個思考啊，分類時，一般都會選擇把類別用one hot進行編碼，比如共有5個類，那麼就有5個編碼[1 0 0 0 0][0 1 0 0 0][0 0 1 1 1][0 0 0 1 0][0 0 0 0 1]這是為什麼呢？為什麼不直接用1,2,3,4,5來表示5個類別

大神手把手教你：(Python)序列資料的One Hot編碼

原文連結機器學習演算法無法直接用於資料分類。資料分類必須轉換為數字才能進一步進行。在本教程中，你將發現如何將輸入或輸出的序列資料轉換為一種熱編碼，以便於你在Python中深度學習的序列分類問題中使用。看完本教程後，你將會了解： · 1.什麼是整

One-Hot編碼(轉)

例子類變量標記完整 lec rep 離散 transform 數字化前言 —————————————&m

one-hot編碼理解

tps bsp 其他相互來源順序 clas class str one-hot是比較常用的文本特征特征提取的方法。 one-hot編碼，又稱“獨熱編碼”。其實就是用N位狀態寄存器編碼N個狀態，每個狀態都有獨立的寄存器位，且這些寄存器位中只有一

資料預處理之獨熱編碼（One-Hot）：為什麼要使用one-hot編碼？

一、問題由來最近在做ctr預估的實驗時，還沒思考過為何資料處理的時候要先進行one-hot編碼，於是整理學習如下：在很多機器學習任務如ctr預估任務中，特徵不全是連續值，而有可能是分類值。如下：　　　　分類變數（定量特徵）與連續變數（定性特徵）。我們訓練模型的變數，一般分為兩種形式。以廣告

獨熱（one-hot）編碼的tensorflow實現

一、獨熱編碼獨熱編碼，又稱一位有效碼，用序列化的數字（只有0和1）表達特徵。主要思路是使用N位數字對N種情況進行編碼。舉個例子，對[0,1,2,3]分別進行編碼。由於有4種情況，序列的長度為4，對應數字的位置1，其餘置0。所以： [1,0,0,0] [0,1,0,0] [

系統學習機器學習之特徵工程（二）--離散型特徵編碼方式：LabelEncoder、one-hot與啞變數*

轉自：https://www.cnblogs.com/lianyingteng/p/7792693.html 在機器學習問題中，我們通過訓練資料集學習得到的其實就是一組模型的引數，然後通過學習得到的引數確定模型的表示，最後用這個模型再去進行我們後續的預測分類等工作。在模型訓練過程中，我們會對訓練

one-hot-encode編碼方式

有時特徵內容並不是數值，而是字串型別。如果直接將字串轉成一個對應的數值，造成原本的特徵具有大小關係。這是需要使用 one-hot-encode編碼格式。兩種轉化方式： pandas.get_dummies()：常用方法，功能強大，操作簡單； sklearn.preprocessing.On

pandas進行one-hot編碼

相關推薦