Python通過兩個dataframe用for迴圈求笛卡爾積

阿新 • • 發佈：2020-04-30

合併兩個沒有共同列的dataframe，相當於按行號求笛卡爾積。

最終效果如下

Python通過兩個dataframe用for迴圈求笛卡爾積

以下程式碼是參考別人的程式碼修改的：

def cartesian_df(A,B):
    new_df = pd.DataFrame(columns=list(A).extend(list(B)))
    for _,A_row in A.iterrows():
      for _,B_row in B.iterrows():
        row = A_row.append(B_row)
        new_df = new_df.append(row,ignore_index=True)
    return new_df
#這個方法，如果兩張表列名重複會出錯

這段程式碼的思路是對兩個表的每一行進行迴圈，執行速度比較慢，複雜度應該是O(m*n)，m是A表的行數，n是B表的行數。

因為我用到的合併錶行數比較多，時間太慢，所以針對上面的程式碼進行了優化。

思路是利用dataframe的merge功能，先迴圈複製A表，將迴圈次數新增為列，直接使用merge合併，複雜度應該為O(n)（n是B表的行數），程式碼如下：

def cartesian_df(df_a,df_b):
  '求兩個dataframe的笛卡爾積'
  #df_a 複製n次，索引用複製次數
  new_df_a = pd.DataFrame(columns=list(df_a))
  for i in range(0,df_b.shape[0]):
    df_a['merge_index'] = i
    new_df_a = new_df_a.append(df_a,ignore_index=True)
  #df_b 設定索引為行數
  df_b.reset_index(inplace = True,drop =True)
  df_b['merge_index'] = df_b.index
  #merge
  new_df = pd.merge(new_df_a,df_b,on=['merge_index'],how='left').drop(['merge_index'],axis = 1)
  return new_df

#兩個原始表中不能有列名'merge_index'

使用一張8行的表和一張142行的表進行測試，優化前的方法用時：5.560689926147461秒

Python通過兩個dataframe用for迴圈求笛卡爾積

優化後的方法用時：0.1296539306640625秒（142行的表作為b表）

Python通過兩個dataframe用for迴圈求笛卡爾積

根據計算原理，將行數少的表放在b表可以更快，測試用時：0.021603107452392578秒（8行的表作為b表）

Python通過兩個dataframe用for迴圈求笛卡爾積

這個速度已經達到預期，基本感覺不到等待，優化完成。

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支援我們。

Python通過兩個dataframe用for迴圈求笛卡爾積

合併兩個沒有共同列的dataframe，相當於按行號求笛卡爾積。最終效果如下以下程式碼是參考別人的程式碼修改的：

多個列表的排列組合（笛卡兒積） | 迭代實現

在西電開源社群逛論壇時候，發現下面的排列組合問題有一個高效的迭代方式實現。

python 座標遍歷生成笛卡爾積矩陣

1. 主要場景生成兩個列表的組合。生成座標 2. 函式用的是python itertools庫的product函式，它返回一個生成器，生成元組。

php計算多個集合的笛卡爾積例項詳解

笛卡爾積笛卡爾積是指在數學中，兩個集合X和Y的笛卡爾積(Cartesian product)，又稱直積，表示為X*Y，第一個物件是X的成員而第二個物件是Y的所有可能有序對的其中一個成員。

Java：用for迴圈輸出1-1000之間能被5整除的數，並且每行輸出3個

技術標籤：Java練習java Java練習：用for迴圈輸出1-1000之間能被5整除的數，並且每行輸出3個。

Python程式碼閱讀（第40篇）：通過兩個列表生成字典

本篇閱讀的程式碼實現了使用兩個列表中的元素分別作為key和value生成字典。

python實現兩個字典合併,兩個list合併

1.兩個字典：a={‘a\':1,\'b\':2,\'c\':3} b= {‘aa\':11,\'bb\':22,\'cc\':33} 合併1：dict(a,**b) 操作如下：

python實現兩個一維列表合併成一個二維列表

我就廢話不多說了，直接上程式碼吧！ >>> list1 = [1,2,3,4,4] >>> list2 = [2,5,2]

Python:合併兩個numpy矩陣的實現

numpy是Python用來科學計算的一個非常重要的庫，numpy主要用來處理一些矩陣物件，可以說numpy讓Python有了Matlab的味道。

Python計算兩個矩形重合面積程式碼例項

這篇文章主要介紹了Python 實現兩個矩形重合面積程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

python同步兩個資料夾下的內容

本文例項為大家分享了python同步兩個資料夾下的內容，供大家參考，具體內容如下

python 計算兩個列表的相關係數的實現

用pandas計算相關係數計算相關係數用pandas，比如我想知道風速大小與風向紊亂（標準差來衡量）之間的相關係數，下面是程式碼：

python實現兩個資料夾的同步

其實無論windows還是Linux，簡單地去實現兩個兩個資料夾的同步只需系統自帶的複製命令加引數就可以了。

python判斷兩個序列的成員是否一樣的例項程式碼

目的：判斷兩個序列的成員是否一樣，如：list1 = [1,2]，list2 = [2,1]，則兩個序列的成員是一樣的。

python 實現兩個執行緒交替執行

我就廢話不多說，直接看程式碼吧！ import threading import time def a(): while True: lockb.acquire()

python 實現兩個npy檔案合併

我就廢話不多說了，大家還是直接看程式碼吧~ old_record=numpy.load(\'exist.npy\') temp_record=[]

python-迭代器協議和for迴圈工作機制

一、遞迴與迭代二、什麼是迭代器協議 1、迭代器協議是指：物件必須提供一個next方法，執行該方法要麼返回迭代中的下一項，要麼就引起一個stopiteration異常，已終止迭代（只能往後走不能往前退）

Python matplotlib讀取excel資料並用for迴圈畫多個子圖subplot操作

讀取excel資料需要用到xlrd模組，在命令列執行下面命令進行安裝 pip install xlrd 表格內容大致如下，有若干sheet，每個sheet記錄了同一所學校的所有學生成績，分為語文、數學、英語、綜合、總分

Python迭代器協議及for迴圈工作機制詳解

一、遞迴與迭代二、什麼是迭代器協議 1、迭代器協議是指：物件必須提供一個next方法，執行該方法要麼返回迭代中的下一項，要麼就引起一個stopiteration異常，已終止迭代（只能往後走不能往前退）

編寫一個程式，將連個字串s1和s2比較，如果s1 > s2，輸出一個整數；若s1 = s2，輸出0；若s1 < s2，輸出一個負數。不要用strcpy函式。兩個字串用gets函式讀入。輸出的正數或負數的絕對值應是相比較的兩個字串相對應字元的ASCII碼的差值。例如，"A"和“C”相比，由於"A" < "C"，應輸出

編寫一個程式，將連個字串s1和s2比較，如果s1 > s2，輸出一個整數；若s1 = s2，輸出0；若s1 < s2，輸出一個負數。不要用strcpy函式。兩個字串用gets函式讀入。輸出的正數或負數的絕對值應是相比較的兩個字串相