1. 程式人生 > >python List去重之set大法(表格轉化為str再hash去重) 和 遍歷append大法

python List去重之set大法(表格轉化為str再hash去重) 和 遍歷append大法

網上常見的python List去重主要是3鍾.

1、遍歷,not in ,再append

2、直接set

3、itertools.grouby

對於list中套list去重. 可以利用分隔符將list合併為字串後,再用set去重. 速度會有很明顯的提高!

從遍歷大法的 30分鐘+ ,到4s就完成

小弟之前主要是用1 . 因為set無法對錶格套表格進行處理.

直到今天處理一串200萬行的list.  因為list無法hash, 所以用append大法.

結果喝了兩杯茶了,都還沒好!!!

用tqdm模組來生成進度條,檢視遍歷的進度時,心,徹底寒了...

什麼,居然要尼瑪26分鐘?  而且隨著 list_noDuplicate慢慢變大,速度會越來越慢.

然後就試試上面說的方法.  將list轉化為str後再用set去重

(因為資料都是取自資料庫,所以是標準的結構化資料)

從30分鐘..變到了4秒鐘

我的媽呀