1. 程式人生 > >python資料分析pandas包入門學習(四)處理缺失資料

python資料分析pandas包入門學習(四)處理缺失資料

本文參考《利用Python進行資料分析》的第五章 pandas入門

4 處理缺失資料 缺失資料(missing data)在大部分資料分析應用中都很常見。Pandas的設計目標之一就是讓缺失資料的處理任務儘量輕鬆。例如,pandas物件上的所有描述統計都排除了缺失資料。 pandas使用NaN表示缺失資料。 Python內建的None也會被當做NaN處理:


濾除缺失資料 對series,可以使用dropna()方法和布林型索引達到濾除缺失資料:
對於DataFrame,就有點複雜了,你可能希望丟棄全部是NAN或含有NAN的行或列。 dropna預設丟棄任何含有缺失值的行,傳入how='all'則之丟棄全為NaN的行或列:
另一個引數是thresh,該引數的型別為整數,它的作用是,比如 thresh=3,會在一行中至少有 3 個非 NA 值時將其保留。
填充缺失資料 有的時候可能不想濾除缺失資料,而是希望通過其他方式填補那些“空洞”。對於大多數情況,fillna方法是最主要的函式: