pandas.DataFrame.drop_duplicates 用法介紹

阿新 • • 發佈：2020-07-07

如下所示：

DataFrame.drop_duplicates(subset=None,keep='first',inplace=False)

subset考慮重複發生在哪一列，預設考慮所有列，就是在任何一列上出現重複都算作是重複資料

keep 包含三個引數first,last,False，first是指，保留搜尋到的第一個重複資料，之後的都刪除；last是指，保留搜尋到的最後一個重複資料，之前的搜尋到的重複資料都刪除，False是指，把所有搜尋到的重複資料都刪除，一個都不保留，即如果有兩行資料重複，把兩行資料都刪除，而不是保留其中一行。預設引數是first。

補充知識：python3刪除資料重複值，只保留第一項。drop_duplicates（）函式使用介紹

原始資料如下：

pandas.DataFrame.drop_duplicates 用法介紹

f 列的前3個數據都有重複項，現在要將重複值刪去，只保留第一項或最後一項。

使用drop_duplicates（）

drop_duplicates(self,subset=None,inplace=False)

subset :如['a']代表a列中的重複值全部被刪除

keep:保留第一個值，引數為first,last

inplace:是否替換原來的df,預設為False

import pandas as pd
data = pd.read_table("C:/Users/xujinhua/Desktop/aa/a.txt",header=None,names=['a','b','c','d','e','f','g']) 
#讀取檔案資料，並將列命名為abcdef
data.drop_duplicates(subset='f',inplace=True)
print(data)

結果：

pandas.DataFrame.drop_duplicates 用法介紹

可以看到 f 列中的重複值都被刪除,且保留了第一項

以上這篇pandas.DataFrame.drop_duplicates 用法介紹就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支援我們。

pandas.DataFrame.drop_duplicates 用法介紹

如下所示： DataFrame.drop_duplicates(subset=None,keep=\'first\',inplace=False) subset考慮重複發生在哪一列，預設考慮所有列，就是在任何一列上出現重複都算作是重複資料

pandas dataframe 中的explode函式用法詳解

在使用 pandas 進行資料分析的過程中，我們常常會遇到將一行資料展開成多行的需求，多麼希望能有一個類似於 hive sql 中的 explode 函式。

pandas DataFrame.groupby()所見的各種用法詳解

這篇文章主要介紹了DataFrame.groupby()所見的各種用法詳解，文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧

pandas.DataFrame.from_dict的使用介紹

Pandas幾個星期不用，差不多又快全部忘記了。便於記憶，還是寫一些痕跡，加深記憶。

MySQL臨時表的簡單用法介紹

當工作在非常大的表上時，你可能偶爾需要執行很多查詢獲得一個大量資料的小的子集，不是對整個表執行這些查詢，而是讓MySQL每次找出所需的少數記錄，將記錄選擇到一個臨時表可能更快些，然後在這些表執行查詢。

oracle中length、lengthb、substr、substrb函式用法介紹

我記得我曾經在開發form的時候犯過這樣一個錯誤，對於form中的某個欄位，對應於資料庫中某張表的欄位，假設在資料庫中這個欄位一般也就用到20個漢字的長度，後來我在開發form的時候，設定item型別長度的時候，我慣性

如何更改 pandas dataframe 中兩列的位置

如何更改 pandas dataframe 中兩列的位置：把其中的某列移到第一列的位置。原來的 df 是：

Pandas DataFrame中的tuple元素遍歷的實現

pandas中遍歷dataframe的每一個元素假如有一個需求場景需要遍歷一個csv或excel中的每一個元素，判斷這個元素是否含有某個關鍵字

Python pandas.DataFrame 找出有空值的行

0.摘要 pandas中DataFrame型別中，找出所有有空值的行，可以使用.isnull()方法和.any()方法。

pytorch torchvision.ImageFolder的用法介紹

torchvision.datasets Datasets 擁有以下API: __getitem__ __len__ Datasets都是 torch.utils.data.Dataset的子類，所以，他們也可以通過torch.utils.data.DataLoader使用多執行緒（python的多程序）。

python 的numpy庫中的mean()函式用法介紹

1. mean() 函式定義： numpy.mean(a,axis=None,dtype=None,out=None,keepdims=<class numpy._globals._NoValue at 0x40b6a26c>)[source]

python pandas.DataFrame.loc函式使用詳解

官方函式 DataFrame.loc Access a group of rows and columns by label(s) or a boolean array. .loc[] is primarily label based,but may also be used with a boolean array.

pandas DataFrame 資料選取，修改，切片的實現

在剛開始使用pandas DataFrame的時候，對於資料的選取，修改和切片經常困惑，這裡總結了一些常用的操作。

pandas DataFrame運算的實現

1 算術運算 add(other) 比如進行數學運算加上具體的一個數字 data[\'open\'].add(1) 2018-02-27 24.53

詳解pandas.DataFrame.plot() 畫圖函式

首先看官網的DataFrame.plot( )函式 DataFrame.plot(x=None,y=None,kind=\'line\',ax=None,subplots=False,sharex=None,sharey=False,layout=None,figsize=None,use_index=True,title=None,grid=None,legend=True,