『Python思考』資料檢查和校驗的函式_不斷更新_不斷改進

阿新 • • 發佈：2019-01-18

注：如有疑問或好的建議，可以在評論區評論

最近的工作經常跟資料打交道，在工作的過程中也漸漸明白到資料是非常容易出錯的，其中一些方面是因為從別人那裡接收到的資料本身就有問題，要麼是資料出錯、要麼是格式不符合我們的要求，後者只需要把我們要求的格式跟對方說明白就可以了，但是說起來容易做起來卻很難，所以實際上往往還是要自己來進行資料預處理，而且我們進行資料預處理後也要對資料進行檢查和校驗，以免在這一步就出錯了；而前者則要複雜得多，資料出錯的原因是多方面的，也許只是對方在錄入資料的時候多寫了幾個空格、或者把英文大寫寫成小寫亦或其它種種原因，在此不贅述。

另一方面則是我們寫程式碼對資料進行各種處理的時候出現問題，要麼是不小心寫錯了程式碼，如把要處理的資料的變數名寫錯成另一資料，要麼是使用的函式得到的結果跟我們想要的並不一樣，要麼是對資料處理的思路出了問題，凡此種種均都會對資料的正確性造成破壞。

因此資料檢查和校驗是非常重要的事。

在網上找了找，發現 python 中好像並沒有相關的庫，但是由於使用 python 來進行資料分析和資料探勘的需求越來越大，因此對於資料檢查和校驗的需求也越來越大，所以準備寫一個用於資料檢查和校驗的簡單的函式，如果以後隨著功能越來越強大則會再改成類、甚至是到時有足夠能力的話，則把它變為一個開源的庫。

參考資料或參考資料備用：

思考區：

# 本函式目前主要針對 pandas 的 DataFrame 物件，在後期將會陸續完善其它資料型別

# 考慮到本函式的輸出資訊量會比較大，因此應當設定輸出資訊量的級別。級別按重要性從大到小排列，級別越低輸出的資訊越少，但輸出的資訊越重要、關鍵，而且每個級別的輸出資訊都是向下相容的。如級別二的輸出資訊會包括級別一的全部輸出資訊。

本函式主要分為兩大部分：資料檢查和資料驗證

1、資料檢查：

1.1、資料的型別

如果資料型別跟我們想要的不一樣，那麼毫無疑問是資料有問題，所以應該最優先檢驗

1.2、資料元素的型別

有的時候資料元素的型別也非常重要，如 DataFrame 物件中的每一列中的每個資料型別是不是我們想要的也是需要驗證的，如果發現型別不對，那毫無疑問也是資料出了問題

1.3、驗證讀取到的中文資料是不是亂碼

由於 python2.X 對中文的支援並不好，因為讀取中文資料往往會出現亂碼，也往往很讓人頭痛，所以這一步的檢查是必需的

2、資料校驗：

2.1、統計資料中的空行數量

空行：指該行上所有列的值均為 NaN ，而至少有一列的值不為 NaN 則稱為資料缺失行（暫定）

一般來說，我們的資料集是不應該有空行的，空行對我們的意義並不大（至少目前還沒遇到過這種情況）也就意味著如果出現了空行，極有可能是資料出問題了。

2.2、資料缺失行的數量

一般來說，資料集出現缺失值是很正常的事，但是為什麼還是要統計其數量呢？一是為了避免在寫程式碼的時候由於手抖，將本來是將 NaN 賦值給某個數的，但卻變成了賦值為某一整列了；二是為了對整個資料集有個大概的概念，便於自己對整個資料集的瞭解（當然，如果將其視覺化的話，效果會更好，所以在後期將會加上這個功能）

程式碼區：

def check_data(data):
    """
    檢查和校驗資料
    """
    try:
        print "資料：", data

        print "資料型別為：", type(data)

        # 求資料長度
        if isinstance(data, int) or isinstance(data, float):
            print "這是整數或浮點數， 沒有長度"
        else:
            print "資料長度為：", len(data)
    except:
        print "遇到未知錯誤！"

    if isinstance(data, pd.DataFrame):
        print data.describe()
        for i in data:
            print "這是%s列" % i, data[i]
            print data[i].sum()

    print "資料檢查函式執行結束"
    print "-" * 70

『Python思考』資料檢查和校驗的函式_不斷更新_不斷改進

『Python思考』資料檢查和校驗的函式_不斷更新_不斷改進

『python思考』關於列表的淺複製和深複製的理解

『 Python筆記』 lambda表示式和函數語言程式設計

移植Modbus到STM32F103（4）：串列埠資料長度和校驗的支援

『Python CoolBook』數據結構和算法_字典比較&字典和集合

003_015 Python 檢查信用卡校驗和

『Python CoolBook』C擴展庫_其五_C語言層面Python庫之間調用API（待續）

『Python CoolBook』C擴展庫_其六_從C語言中調用Python代碼

『Python CoolBook』C擴展庫_其六_線程

python包-numpy資料讀取和儲存（二）

Python基礎學習---資料型別和條件語句（三）

『Python學習』海龜法則學習

【廖雪峰Python習題集】資料型別和變數

Hibernate髒資料檢查和快取清理策略

『python工作』工作中常用 Excel 表公式

python:廖雪峰教程——python基礎：資料型別和變數轉義符練習

『python工作』matplotlib 庫的一些注意點

python（計算資料偏差和峰度）

python遍歷資料夾和檔案

『Python學習』pandas進階學習筆記

『Python思考』資料檢查和校驗的函式_不斷更新_不斷改進

相關推薦