pandas（13）：資料清洗（重複記錄）

阿新 • • 發佈：2021-06-15

資料來源：

df= pd.DataFrame({'k1': [ 's1']* 3 + ['s2']* 5,'k2' : [1, 1, 2, 3, 3, 4, 4,4]})
df

1 重複值判斷和檢視

df.duplicated(subset=None, keep='first')

功能：
指定列資料重複項判斷，返回指定列重複行boolean Series.
引數說明：

subset=None：列標籤或標籤序列，可選，只考慮某些列來識別重複項;預設使用所有列。
keep='first'：{'first'，'last'，False}
- first：將第一次出現重複值標記為True。
- last：將最後一次出現重複值標記為True。
- False：將所有重複項標記為True。

# 預設判斷所有列，只有第一條不標記為true，後面重複出現的都是true
df.duplicated()
# subset=[list],只判斷指定列
df.duplicated(subset=['k1'])
# keep='last',只最後一次不標記為true，前面的都標記為true
df.duplicated(keep='last')
# keep=false，所有重複項都標記為true
df.duplicated(keep=False)

# 檢視記錄重複數量，不包括首次出現那條記錄
df.duplicated().value_counts()
# 檢視記錄重複的所有數量
df.duplicated(keep=False).value_counts()
# 檢視所有重複記錄
df[df.duplicated(keep=False)]
# 檢視除首條外的所有重複記錄
df[df.duplicated()]

2 重複值刪除

df.drop_duplicates(subset=None, keep='first', inplace=False)

pandas（13）：資料清洗（重複記錄）

資料來源： df= pd.DataFrame({\'k1\': [ \'s1\']* 3 + [\'s2\']* 5,\'k2\' : [1, 1, 2, 3, 3, 4, 4,4]})

Hadoop基礎（二十九）：資料清洗（ETL）（二）複雜解析版

資料清洗案例實操-複雜解析版 1．需求對Web訪問日誌中的各欄位識別切分，去除日誌中不合法的記錄。根據清洗規則，輸出過濾後的資料。

Hadoop基礎（二十八）：資料清洗（ETL）（一）簡單解析版

資料清洗案例實操-簡單解析版在執行核心業務MapReduce程式之前，往往要先對資料進行清洗，清理掉不符合使用者要求的資料。清理的過程往往只需要執行Mapper程式，不需要執行Reduce程式。

Flink實戰（九十三）：資料傾斜（二）keyby 視窗資料傾斜的優化

在大資料處理領域，資料傾斜是一個非常常見的問題，今天我們就簡單講講在flink中如何處理流式資料傾斜問題。

機器學習sklearn（五）：資料處理（二）缺失值處理

來源 https://www.cnblogs.com/B-Hanan/articles/12774433.html 1 單變數缺失 import numpy as np from sklearn.impute import SimpleImputer

機器學習sklearn（六）：資料處理（三）數值型資料處理（一）歸一化( MinMaxScaler/MaxAbsScaler)

來源：https://www.cntofu.com/book/170/docs/59.md 1 將特徵縮放至特定範圍內一種標準化是將特徵縮放到給定的最小值和最大值之間，通常在零和一之間，或者也可以將每個特徵的最大絕對值轉換至單位大小。可以分別使

機器學習sklearn（七）：資料處理（四）數值型資料處理（二）標準化 StandardScaler

Thepreprocessingmodule provides theStandardScalerutility class, which is a quick and easy way to perform the following operation on an array-like dataset: