Pandas實現一列資料分隔為兩列

阿新 • • 發佈：2020-05-19

分割成一個包含兩個元素列表的列

對於一個已知分隔符的簡單分割（例如，用破折號分割或用空格分割）.str.split() 方法就足夠了。它在字串的列（系列）上執行，並返回列表（系列）。

>>> import pandas as pd
>>> df = pd.DataFrame({'AB': ['A1-B1','A2-B2']})
>>> df

  AB
0 A1-B1
1 A2-B2
>>> df['AB_split'] = df['AB'].str.split('-')
>>> df

  AB AB_split
0 A1-B1 [A1,B1]
1 A2-B2 [A2,B2]

分割成兩列，每列包含列表的相應元素

下面來看下如何從：分割成一個包含兩個元素列表的列至分割成兩列，每列包含列表的相應元素。

>>> df['AB'].str[0]

0 A
1 A
Name: AB,dtype: object

>>> df['AB'].str[1]

0 1
1 2
Name: AB,dtype: object

因此可以得到

>>> df['AB'].str.split('-',1).str[0]

0 A1
1 A2
Name: AB,dtype: object

>>> df['AB'].str.split('-',1).str[1]

0 B1
1 B2
Name: AB,dtype: object

可以通過如下程式碼將pandas的一列分成兩列：

>>> df['A'],df['B'] = df['AB'].str.split('-',1).str
>>> df

  AB AB_split A B
0 A1-B1 [A1,B1] A1 B1
1 A2-B2 [A2,B2] A2 B2

補充知識：pandas某一列中每一行拆分成多行的方法

在處理資料過程中，常會遇到將一條資料拆分成多條，比如一個人的地址資訊中，可能有多條地址，既有家庭地址也有工作地址，還有電話資訊等等類似的情況，實際使用資料的時候又需要分開處理，這個時候就需要將這一條資料進行拆分成多條，以方便使用。

在pandas中如何對DataFrame進行相關操作呢，經查閱相關資料，發現了一個簡單的辦法，

info.drop(['city'],axis=1).join(info['city'].str.split(' ',expand=True).stack().reset_index(level=1,drop=True).rename('city'))

看起來非常之長，分開來看，流程如下：

將需要拆分的資料使用split拆分工具拆分，並使用expand功能拆分成多列

將拆分後的多列資料進行列轉行操作(stack)，合併成一列

將生成的複合索引重新進行reset保留原始的索引,並命名

將上面處理後的DataFrame和原始DataFrame進行join操作，預設使用的是索引進行連線

具體操作如下：

預操作：生成需要使用的DataFrame

# 用來生成DataFrame的工具
from pydbgen import pydbgen
myDB=pydbgen.pydb()

# 生成一個DataFrame
info = myDB.gen_dataframe(10,['name','phone','city','state'])

結果如下：

	name	phone-number	city	state
0	Hannah Richard	810-859-7815	Irwinville	Louisiana
1	Ronald Berry	591-564-0585	Glen Ellen	Minnesota
2	Caitlin Barron	969-840-8580	Dubois	Oklahoma
3	Felicia Stephens	154-858-1233	Veedersburg	Alaska
4	Shelly Dennis	343-104-9365	Mattapex	Virginia
5	Nicholas Hill	992-239-1954	Moneta	Minnesota
6	Steve Bradshaw	164-081-7811	Ten Broeck	Colorado
7	Gail Johnston	155-259-9514	Wayan	Virginia
8	John Gray	409-892-4716	Darlington	Pennsylvania
9	Katherine Bautista	185-861-1677	McNab	Texas

假如現在我們要對city列進行進行拆分，按照空格拆分，轉換成多行的資料，
第一步：拆分，生成多列

info_city = info['city'].str.split(' ',expand=True)

結果如下：

	0	1
0	Irwinville	None
1	Glen	Ellen
2	Dubois	None
3	Veedersburg	None
4	Mattapex	None
5	Moneta	None
6	Ten	Broeck
7	Wayan	None
8	Darlington	None
9	McNab	None

可以看到已經將原始資料拆分成了2列，對於無法拆分的資料為None

第二步：行轉列

info_city = info_city.stack()

結果如下：


0	0	Irwinville
1	0	Glen
	1	Ellen
2	0	Dubois
3	0	Veedersburg
4	0	Mattapex
5	0	Moneta
6	0	Ten
	1	Broeck
7	0	Wayan
8	0	Darlington
9	0	McNab

其中前面兩列是索引，返回的是一個series，沒有名字的series

第三步：重置索引，並命名（並刪除多於的索引）

info_city = info_city.reset_index(level=1,drop=True)

結果如下：


0	Irwinville
1	Glen
1	Ellen
2	Dubois
3	Veedersburg
4	Mattapex
5	Moneta
6	Ten
6	Broeck
7	Wayan
8	Darlington
9	McNab

第四步：和原始資料合併

info_new = info.drop(['city'],axis=1).join(info_city)

結果如下：

	name	phone-number	state	city
0	Hannah Richard	810-859-7815	Louisiana	Irwinville
1	Ronald Berry	591-564-0585	Minnesota	Glen
1	Ronald Berry	591-564-0585	Minnesota	Ellen
2	Caitlin Barron	969-840-8580	Oklahoma	Dubois
3	Felicia Stephens	154-858-1233	Alaska	Veedersburg
4	Shelly Dennis	343-104-9365	Virginia	Mattapex
5	Nicholas Hill	992-239-1954	Minnesota	Moneta
6	Steve Bradshaw	164-081-7811	Colorado	Ten
6	Steve Bradshaw	164-081-7811	Colorado	Broeck
7	Gail Johnston	155-259-9514	Virginia	Wayan
8	John Gray	409-892-4716	Pennsylvania	Darlington
9	Katherine Bautista	185-861-1677	Texas	McNab

需要特別注意的是，需要使用原始的連線新生成的，因為新生成的是一個series沒有join方法，也可以通過將生成的series通過to_frame方法轉換成DataFrame，這樣就沒有什麼差異了

寫了這麼多，記住下面的就行了：

info.drop([‘city'],axis=1).join(info[‘city'].str.split(' ',drop=True).rename(‘city'))

如果原資料中已經是list了，可以將info[‘city'].str.split(' ',expand=True)這部分替換成info[‘city'].apply(lambda x: pd.Series(x))，就可以達到相同的目的。

以上這篇Pandas實現一列資料分隔為兩列就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支援我們。

Pandas實現一列資料分隔為兩列

Pandas實現一列資料分隔為兩列

linux中實現將連續的多列資料合併為一列資料

mysql 解決一列資料vs多列資料合併為一列資料

Orale實現一列資料拆分成多列

linux中如何將一列資料轉換為一行資料

linux中利用awk命令將一列資料轉換為一行資料

pandas+numpy 對df資料中的某列進行等分分桶操作

Oracle資料庫操作：將有頓號的一條資料拆分為多行

mapminmax對2維的資料進行歸一化處理，而對一維資料進行反歸一化處理，會是什麼結果？答案是對該一維資料進行了兩個反歸一化處理。

vue 實現一鍵複製功能（兩種方式）

c++ 如何做出實現一組資料的實際索引

Python3實現將一維陣列按標準長度分隔為二維陣列

連線兩列Pandas資料框

pandas將list資料拆分成行或列的實現

oracle 查null或空字串；根據引數順序查詢；exists 使用；sql 查詢時固定一列，到java 後臺資料型別為Character

linux awk命令實現輸出每一列資料的最大值、最小值

11.pandas獲取EXCEL某一行某一列資料，組合成二維陣列，再寫入excel

一文彙總 CSS 兩列布局和三列布局

Mysql將一個表中的某一列資料複製到另一個表中某一列裡的方法

如何更改 pandas dataframe 中兩列的位置

Pandas實現一列資料分隔為兩列

相關推薦