python資料預處理：字元變數獨熱編碼(one-hot encoding)

阿新 • • 發佈：2018-11-26

許多的資料取樣中會有很多以以字串形式出現的資料，這樣的資料沒有辦法直接跟其他數值變數合併成向量，這些值一般是分類資料或是順序資料。

分類資料：分類資料指某些資料類別的只能歸於某一類非數值型資料，例如男、女。分類資料中的值沒有明顯高低好壞之分，只是由來區分兩個或多個具有相同或相當價值的屬性。
順序資料：順序資料只能歸於某一有序類別的非數值型資料，例如使用者的價制度分為高、中、低。在順序資料中，有明顯的邏輯排序。

import pandas as pd
import numpy as np

# 匯入資料
df = pd.read_csv('https://raw.githubusercontent.com/ffzs/dataset/master/Questionnaire.csv' 
, usecols=[0, 1, 5])

# 更改列名
df.columns = ['Gender', 'Country', 'Edu']
df0 = df[:10]

# 看下資料
	Gender	Country	Edu
0	Female	United States	Master's degree
1	Male	Canada	Master's degree
2	Male	United States	Master's degree
3	Male	Taiwan	Doctoral degree
4	Male	Brazil	Doctoral degree
5	Male	United States	Master's degree
6 
	Female	India	Bachelor's degree
7	Female	Australia	Bachelor's degree
8	Male	Russia	Bachelor's degree
9	Female	Russia	Bachelor's degree

# pandas 方法
# 使用get_dummies函式
pd.get_dummies(df0)


# 使用 sklearn
from sklearn.preprocessing import OneHotEncoder, LabelEncoder

columes = df0.columns
for col in columes: 

    data = df0[col]
    if data.dtype == 'object':
        new_columns = []
        label = LabelEncoder()
        oneHot = OneHotEncoder()
        la_data = label.fit_transform(data).reshape(-1, 1)
        for cla in label.classes_:
            new_columns.append(col+'_'+cla)
        one_data = oneHot.fit_transform(la_data).toarray()
        enc_df = pd.DataFrame(one_data , columns=new_columns)
        del df0[col]
        df0 = pd.concat([df0, enc_df], axis=1)

pandas的get_dummies和 sklearn的 OneHotEncoder區別：

OneHotEncoder不能直接處理字串值。如果你的名義特徵是字串，那麼你需要先把它們對映成整數。
pandas.get_dummies是相反的。預設情況下，除非指定了列，否則它僅將字串列轉換為單熱表示形式。

python資料預處理：字元變數獨熱編碼(one-hot encoding)

許多的資料取樣中會有很多以以字串形式出現的資料，這樣的資料沒有辦法直接跟其他數值變數合併成向量，這些值一般是分類資料或是順序資料。分類資料：分類資料指某些資料類別的只能歸於某一類非數值型資料，例如男、女。分類資料中的值沒有明顯高低好壞之分，只是由來區分兩個或多個具有相同或相

獨熱編碼 one-hot Encoding

常需要處理的數值都是稀疏而又散亂地分佈在空間中，然而，我們並不需要儲存這些大數值，這時可以用獨熱編碼。例如：我們需要處理4維向量空間，當給一個特徵向量的第n個特徵進行編碼時，編碼器會遍歷每個特徵向量的第n個特徵，然後進行非重複計數。若第n個特徵的最大值為K，則就把這個特徵轉換為只有一個值為1而

【Machine Learning】特徵工程之獨熱編碼(One-hot Encoding)

一、獨熱編碼當我們在機器學習做特徵工程時，如果某個categorical特徵具有多個符號值，則不可能對具有這種特徵的資料進行訓練,而獨熱編碼是解決這個問題的一種方法。比如我們有一個特徵是protocol_type有三個值：tcp，udp，icmp，那麼我們

python資料預處理：資料標準化

何為標準化：在資料分析之前，我們通常需要先將資料標準化（normalization），利用標準化後的資料進行資料分析。資料標準化也就是統計資料的指數化。資料標準化處理主要包括資料同趨化處理和無量綱化處理兩個方面。資料同趨化處理主要解決不同性質資料問題，對不同性質指標直接加總不能正確

python資料預處理：資料相關性

何為相關性：相關性分析是指對具備相關性關係的變數進行分析，從而衡量變數間的相關程度或密切程度。相關性可以應用到所有資料的分析過程中，任何事物之間都是存在一定的聯絡。相關性用R（相關係數）表示，R的取值範圍是[-1, 1] 相關和因果：相關並不是因果，例如商品銷售活動時，通

python資料預處理：資料共線性處理

何為共線性：共線性問題指的是輸入的自變數之間存在較高的線性相關度。共線性問題會導致迴歸模型的穩定性和準確性大大降低，另外，過多無關的維度計算也很浪費時間共線性產生原因：變量出現共線性的原因：資料樣本不夠，導致共線性存在偶然性，這其實反映了缺少資料對於資料建

python資料預處理：資料抽樣

何為資料抽樣：抽樣是資料處理的一種基本方法，常常伴隨著計算資源不足、獲取全部資料困難、時效性要求等情況使用。抽樣方法：一般有四種方法：隨機抽樣直接從整體資料中等概率抽取n個樣本。這種方法優勢是，簡單、好操作、適用於分佈均勻的場景；缺點是總體大時無法一一編

python資料預處理：樣本分佈不均（過取樣和欠取樣）

何為樣本分佈不均：樣本分佈不均衡就是指樣本差異非常大，例如共1000條資料樣本的資料集中，其中佔有10條樣本分類，其特徵無論如何你和也無法實現完整特徵值的覆蓋，此時屬於嚴重的樣本分佈不均衡。為何要解決樣本分佈不均：樣本分部不均衡的資料集也是很常見的：比如惡意刷單、黃牛訂

python資料預處理：資料降維

資料為何要降維資料降維可以降低模型的計算量並減少模型執行時間、降低噪音變數資訊對於模型結果的影響、便於通過視覺化方式展示歸約後的維度資訊並減少資料儲存空間。因此，大多數情況下，當我們面臨高維資料時，都需要對資料做降維處理。資料降維有兩種方式：特徵選擇，維度轉換特徵選擇

python資料預處理：使用pandas 進行資料清洗

問題：介紹資料清洗方法。。解答：所謂資料清洗主要處理的是資料中的缺失值、異常值和重複值：缺失值處理資料缺失值指由於各種原因導致資料中存在的空缺值：資料庫中的null，python返回物件none，pandas或numpy中的nan；另空字串是有實體的不算是缺

python資料預處理：資料離散化

何為離散化：一些資料探勘演算法中，要求資料是分類屬性形式。因此常常需要將連續屬性的資料通過斷點進行劃分最後歸屬到不同的分類，即離散化。為什麼要離散化：調高計算效率分類模型計算需要給予距離計算模型（k均值、協同過濾）中降低異常資料對模型的影響

Python資料預處理：機器學習、人工智慧通用技術（1）

Python資料預處理：機器學習、人工智慧通用技術白寧超 2018年12月24日17:28:26 摘要：大資料技術與我們日常生活越來越緊密，要做大資料，首要解決資料問題。原始資料存在大量不完整、不一致、有異常的資料，嚴重影響到資料建模的執行效率，甚至可能導致模型

資料預處理：獨熱編碼（One-Hot Encoding）和 LabelEncoder標籤編碼

一、問題由來在很多機器學習任務中，特徵並不總是連續值，而有可能是分類值。離散特徵的編碼分為兩種情況：　　1、離散特徵的取值之間沒有大小的意義，比如color：[red,blue],那麼就使用one-hot編碼　　2、離散特徵的取值有大小的意義，比如size:[

資料預處理：讀取檔案資料，並存為python陣列

檔案的簡單讀取 # 定義一個將檔案中的資料轉化為陣列的類 import numpy as np class DataUtil: # =============================================================================

京東豬臉識別比賽資料預處理：用Python將視訊每一幀提取儲存為圖片

最近參加京東的豬臉識別比賽，訓練集是30個視訊，需要將視訊的每一幀提取出來儲存為圖片，存入對應的資料夾（分類標籤）。本例是直接呼叫了cv2 模組中的 VideoCapture。一次執行，大概10分鐘，就能得到預處理後的分類圖片了，具體程式碼如下。

3行程式碼，Python資料預處理提速6倍！

來源：towardsdatascience 作者：George Seif 編輯：肖琴讓CPU核心物盡其用！本文介紹了僅需3行程式碼，將Python資料處理速度提升2~6倍的簡單方法。 Python是所有機器學習的首選程式語言。它易於使用，並擁有許多很棒的庫，可以輕鬆地處

資料預處理：One-Hot Encoding

機器學習中，在對資料進行訓練之前，都會對資料進行預處理，也就是特徵提取，個人認為特徵提取是訓練模型中非常非常重要的一步！在迴歸，分類，聚類等機器學習演算法中，特徵之間距離的計算或相似度的計算是非常重要的，而我們常用的距離或相似度的計算都是在歐式空間的相似度計算，計算餘弦相似性，基於的就是歐

3-6 用 Pandas 進行資料預處理：資料清洗與視覺化（版本：py3）

主要內容：格式轉換缺失資料異常資料資料標準化操作格式轉換如Python記錄時間的方式，不能夠直接實現減運算，就需要進行轉換 pandas.to_datetime 缺失資料忽略缺失資料直接標記利用平均值、最常出現值進行填充異常資料處

Python資料預處理之---統計學的t檢驗，卡方檢驗以及均值，中位數等

Python資料預處理過程：利用統計學對資料進行檢驗，對連續屬性檢驗正態分佈，針對正態分佈屬性繼續使用t檢驗檢驗方差齊次性，針對非正態分佈使用Mann-Whitney檢驗。針對分類變數進行卡方檢驗（涉及三種卡方的檢驗：Pearson卡方，校準卡方，精準卡方）等。

python資料預處理和特性選擇後列的對映

我們在用python進行機器學習建模時，首先需要對資料進行預處理然後進行特徵工程，在這些過程中，資料的格式可能會發生變化，前幾天我遇到過的問題就是：　　　　對資料進行標準化、歸一化、方差過濾的時候資料都從DataFrame格式變為了array格式。這樣資料的列名就會消失，且進行特徵選擇之後列的數量也會

python資料預處理： 字元變數獨熱編碼(one-hot encoding)

相關推薦

python資料預處理：字元變數獨熱編碼(one-hot encoding)