資料處理：用pandas處理大型csv檔案

阿新 • • 發佈：2018-11-05

在訓練機器學習模型的過程中，源資料常常不符合我們的要求。大量繁雜的資料，需要按照我們的需求進行過濾。拿到我們想要的資料格式，並建立能夠反映資料間邏輯結構的資料表達形式。
最近就拿到一個小任務，需要處理70多萬條資料。

我們在處理csv檔案時，經常使用pandas，可以幫助處理較大的csv檔案。

pandas 中處理CSV 檔案的函式主要為read_csv() 和to_csv()這兩個，其中read_csv() 讀取CSV 檔案的內容並返回DataFrame，to_csv() 則是其逆過程。

在之前的部落格中，曾寫過用pandas按照一行一行的方式來讀取csv檔案的方式，具體可以看這篇連結。

Python基礎：csv檔案的讀寫（pandas，csv兩種方式）
但這樣讀取的方式，顯然比較低效，下面是我自己在處理資料時使用過的一些比較實用的方法。

1.讀取限定列

一個csv檔案中，往往有很多不同的列，而我們通常只關注其中的某些列，如果把每行都讀取出來，再提取資訊，顯然會增加IO量，因此我們可以在讀檔案的時候，給定read_csv()方法的引數，從而提高效率。

file = pd.read_csv('demo.csv',usecols=['column1', 'column2', 'column3'])

在usecols引數中，給定了要讀取的3列，file中則只包含這3列的資訊。

2.讀取限定行

實際寫程式碼的過程中，往往需要先跑一部分資料進行測試，測試通過後，再處理所有的資料。也可能我們僅僅需要一部分資料進行運算。這時候就可以使用read_csv()方法中的nrows引數，設定讀取的行數。

file = pd.read_csv('demo.csv',nrows=1000,usecols=['column1', 'column2', 'column3'])

僅讀取前1000行資料。

3.分塊讀取

read_csv()方法中還有一個引數，chunksize，可以指定一個chunksize分塊大小來讀取檔案。與直接使用df進行遍歷不同的是，它返回的是一個TextFileReader

型別的物件。

reader = pd.read_csv('demo.csv',nrows=10000,
                     usecols=['column1','column2','column3'], 
                     chunksize=1000,iterator=True)
reader

output:
<pandas.io.parsers.TextFileReader at 0x120d2f290>

4.其他

head()和tail()

拿到一個很大的csv檔案後，為了看清檔案的格式，可以使用該方法，先檢視前10條資料。head()方法預設是10條，也可以用tail()方法檢視最後10條資料。

file = pd.read_csv('demo.csv')
df = pd.DataFrame(file)

df.head()
df.tail()

目前用到的就是這些，之後用到再補充。

拿到資料之後，分析資料之間的邏輯，建立相應的能夠表示資料間邏輯關係的資料結構，再進行相應的處理。

學習中，請多指教！

資料處理：用pandas處理大型csv檔案

1.讀取限定列

2.讀取限定行

3.分塊讀取

4.其他

head()和tail()

資料處理：用pandas處理大型csv檔案

Python使用Pandas對大型csv檔案進行資料處理

小丸子踏入python之路：python_day05（用Pandas處理泰坦尼克船員獲救數據titanic_train.csv）

pandas io tools（使用python處理資料時候經常用到）讀csv，TXT

python資料預處理：使用pandas 進行資料清洗

機器學習學習筆記：用MiniVGGNet處理Cifar-10資料集

京東豬臉識別比賽資料預處理：用Python將視訊每一幀提取儲存為圖片

機器學習（一）：用sklearn進行資料預處理：缺失值處理、資料標準化、歸一化

用pandas處理數據遇到的坑

pandas 讀取本地csv檔案，處理，儲存

用Pandas處理較大資料量

python資料分析：缺失值處理

Python：用Pandas讀CSV檔案寫到MySQL

用pandas處理缺失值補全及DictVectorizer特徵轉換

資料結構：用連結串列實現棧的括號匹配

python 資料分析之用pandas和seaborn繪圖

dos批處理：列出指定目錄下所有檔案

選股策略二：用pandas pd.merge()進行類海龜法則選股

（Python）利用pandas向一個csv檔案追加寫入資料

Python：將大型CSV檔案轉化為DataFrame

資料處理：用pandas處理大型csv檔案

1.讀取限定列

2.讀取限定行

3.分塊讀取

4.其他

head()和tail()

相關推薦