【翻譯】2018年，20大Python資料科學庫都做了哪些更新？

阿新 • • 發佈：2018-12-12

Python今年依舊保持著資料科學領域的領先地位。去年，我們在部落格上列出了15個頂級Python資料科學庫的榜單，當時大家都覺得非常好。這次，介紹一下這些頂級資料科學Python庫今年有哪些更新，同時，我們還為這個榜單添加了一些新庫。

實際上，這次的榜單不止20個庫，主要是因為現在某些領域裡有多個庫都能解決相同的問題，而且暫時也不好說哪個庫能成為領頭羊，因此，我們將這些庫分為一組，供大家選擇。

1. NumPy (提交修改: 17911, 貢獻者: 641)

按慣例，本榜單首先列出科學應用庫，Numpy是這一類的首選，它是處理大型多維陣列、矩陣及高階數學函式的工具集合，提供了多種資料操作方法。

今年，Numpy進行了很多改進。除了修復Bug和加強相容性外，關鍵的改進是增加了可選樣式，即Numpy物件的列印格式。此外，還增加了新的功能，只要是Python支援的編碼，Numpy就可以處理使用這些編碼的檔案。

2. SciPy (提交修改: 19150, 貢獻者: 608)

科學計算的的另一個核心庫是SciPy。SciPy基於Numpy，擴充套件了Numpy的功能，它的核心資料結構是用Numpy實現的多維陣列。這個庫包含了一組處理線性代數、概率論、積分學等任務的工具。

SciPy的主要改進包括對不同作業系統的整合，增加了新的函式與方法，值得一提的是，SciPy更新了優化器。此外，還打包了不少新的BLAS[1]和LAPACK[2]函式。

3. Pandas (提交修改: 17144, 貢獻者: 1165)

Pandas提供了高層資料結構和大量的分析工具。這個庫最牛的地方是可以用一兩條命令實現很多複雜的資料分析操作。Pandas內建了很多方法，比如分組、篩選、合併資料及時間序列等功能，並且，這些操作的運算速度都非常快。

今年，Pandas進行了數百項優化，包括增加了新特性、修復了Bug、改進了API。這些優化主要集中在提升Pandas分組和排序資料的能力，提供了更適用的apply方法的輸出結果，還為操作自定義型別提供了支援。

4. StatsModels (提交修改: 10067, 貢獻者: 153)

Statsmodels是進行統計資料分析的Python模組，比如，評估統計模型、執行統計測試等。有了Statsmodels，就可以實現很多機器學習方法，探索不同圖形的繪圖可能性。

Statsmodels還在不斷開發升級，將來會提供越來越多的新特性。今年，Statsmodels引入了時間序列和新的技術模型，如，廣義泊松、零膨脹模型、負二項式分佈等，它還提供了一些新的多元方法，如，因子分析、多元方差分析（MANOVA）和方差分析（ANOVA）的重複測量等。