『Python學習』pandas進階學習筆記

阿新 • • 發佈：2019-02-08

Pandas資料分析基礎

http://blog.csdn.net/cbbing/article/details/50721468

1、

# 輸出系統當前時間
now = datetime.now()
print now
print now.day
print now.weekday()    # 有疑問  為何比真實時間晚一天？是因為時區問題？

2、

from datetime import date, time

print time(3, 24)    # 3時24分

3、"strptime" 方法可以根據需求形式解析用字串表示的日期或時間欄位。

test_time = "2/20/09 16:03"
print datetime.strptime(test_time, "%m/%d/%y %H:%M")      # 必須嚴格對照原格式， 感覺很不實用

4、事實證明 "dateutil" 庫中的日期解析器要遠比 "strptime" 要強大得多

from dateutil.parser import parse

test_time_1 = "2/20/09 16:03"
test_time_2 = "2009/2/20 16:03:01"
test_time_3 = "2009-2-20 16:03:01"
test_time_4 = "2009-2/20 16:03:01"

print parse(test_time_1)
print parse(test_time_2)
print parse(test_time_3)
print parse(test_time_4)
 # 輸出結果
2009-02-20 16:03:00
2009-02-20 16:03:01
2009-02-20 16:03:01
2009-02-20 16:03:01

5、為了簡單起見，Pandas提供了“to_datetime”方法來識別字符串形式的一整個序列，並將其轉換為“datetime”物件。

file = pd.read_csv(path)
print pd.to_datetime(file.time)
print pd.to_datetime([None])

注：Pandas 中對於時間型別的缺失值有一個特定的值，“NaT”

6、

file = pd.read_csv(path, index_col=None)
#print file.number    # 報錯沒有 number 屬性？是因為使用它來作為 index_col 了？當 index_col 設定為 None 時可以正常輸出
print file.time

7、unique 輸出序列的元素，且重複值只輸出一次（即去重）

8、merge:　將兩個 DataFrame 物件按鍵（key）合併
merge的引數形式如下：

pd.merge(left, right, how='inner', on=None, left_on=None,

right_on=None, left_index=False,right_index=False,

sort=False, suffixes=('_x', '_y'), copy=True, indicator=False)

其中： left : 資料框，right : 資料框 how : {'left', 'right', 'outer', 'inner'}, 預設值為 'inner'
* left: 只使用left資料框的鍵值

* right: 只使用right資料框的鍵值

* outer: 使用兩個資料框鍵值的並集

* inner: 使用兩個資料框鍵值的交集

# 當兩個資料框有一個共同的列名時， 預設以該列的值作為合併時的鍵值
df1 = pd.DataFrame(dict(test1=range(4), test2=range(10, 14)))
df2 = pd.DataFrame(dict(test1=range(3) * 2, test3=range(20, 26)))
print pd.merge(df1, df2)          # 預設以兩個資料框的鍵值的交集為鍵值

# 輸出結果
 test1  test2  test3
0      0     10     20
1      0     10     23
2      1     11     21
3      1     11     24
4      2     12     22
5      2     12     25

# 由於 merge 預設以兩個資料框的鍵值的交集為鍵值， 故當交集為空時， 合併後的資料框也為空
df1 = pd.DataFrame(dict(test1=range(4), test2=range(10, 14)))
df2 = pd.DataFrame(dict(test1=range(10, 13) * 2, test3=range(20, 26)))
print pd.merge(df1, df2)          # 預設以兩個資料框的鍵值的交集為鍵值

# 輸出結果
Columns: [test1, test2, test3]
Index: []

# 當兩個資料框有一個共同的列名時， 預設以該列的值作為合併時的鍵值
df1 = pd.DataFrame(dict(test1=range(4), test2=range(10, 14)))
df2 = pd.DataFrame(dict(test1=range(3) * 2, test3=range(20, 26)))
print pd.merge(df1, df2, how="outer")          # 以兩個資料框的鍵值的並集為鍵值

# 輸出結果
 test1  test2  test3
0      0     10   20.0
1      0     10   23.0
2      1     11   21.0
3      1     11   24.0
4      2     12   22.0
5      2     12   25.0
6      3     13    NaN

on: 取值為標籤或列表取值即為合併的欄位，要求必須同時存在與被合併的資料框，如果取值為None，並且不按照索引合併時，函式就預設按照列的交集合並。

# 當兩個資料框有多個相同的列名時， 沒被選擇作為鍵的列名將會被系統標記為不同的列名
df1 = pd.DataFrame(dict(test1=range(4), test2=range(10, 14)))
df2 = pd.DataFrame(dict(test1=range(3) * 2, test2=range(10, 16), test3=range(20, 26)))
print pd.merge(df1, df2, on="test1")          # 以 test1 為鍵

# 輸出結果
test1  test2_x  test2_y  test3
0      0       10       10     20
1      0       10       13     23
2      1       11       11     21
3      1       11       14     24
4      2       12       12     22
5      2       12       15     25

或

# 當兩個資料框有多個相同的列名時， 沒被選擇作為鍵的列名將會被系統標記為不同的列名
df1 = pd.DataFrame(dict(test1=range(4), test2=range(10, 14)))
df2 = pd.DataFrame(dict(test1=range(3) * 2, test2=range(10, 16), test3=range(20, 26)))
print pd.merge(df1, df2, on="test2")          # 以 test2 為鍵

# 輸出結果
 test1_x  test2  test1_y  test3
0        0     10        0     20
1        1     11        1     21
2        2     12        2     22
3        3     13        0     23

# 當兩個資料框有多個相同的列名時， 可以選擇多個列名作為鍵
df1 = pd.DataFrame(dict(test1=range(4), test2=range(10, 14)))
df2 = pd.DataFrame(dict(test1=range(3) * 2, test2=range(10, 16), test3=range(20, 26)))
print pd.merge(df1, df2, on=["test1", "test2"])          # 以 test1, test2 為鍵

# 輸出結果
 test1  test2  test3
0      0     10     20
1      1     11     21
2      2     12     22

left(right)_on: 取值為標籤或列表或陣列形式 left(right)資料框中用來合併的欄位，可以是同資料框長度的向量或者向量列表，被用來作為特別指定的合併鍵值。

# 指定兩個資料框中各自用於合併的列名
df1 = pd.DataFrame(dict(test1=range(4), test2=range(10, 14)))
df2 = pd.DataFrame(dict(test1=range(3) * 2, test2=range(10, 16), test3=range(20, 26)))
print pd.merge(df1, df2, left_on="test1", right_on="test1")          # 以 "test1" 為鍵

# 輸出結果
test1  test2_x  test2_y  test3
0      0       10       10     20
1      0       10       13     23
2      1       11       11     21
3      1       11       14     24
4      2       12       12     22
5      2       12       15     25

left(right)_index:取值為布林值，預設為False 使用left(right)資料框的索引作為合併鍵值，如果是多重索引，另一個數據框中鍵值的數目必須和索引的層級相符。

# 以行索引為鍵
df1 = pd.DataFrame(dict(test1=range(4), test2=range(10, 14)))
df2 = pd.DataFrame(dict(test1=range(3) * 2, test2=range(10, 16), test3=range(20, 26)))
print pd.merge(df1, df2, left_index=True, right_index=True)          # 以行索引為鍵

# 輸出結果
test1_x  test2_x  test1_y  test2_y  test3
0        0       10        0       10     20
1        1       11        1       11     21
2        2       12        2       12     22
3        3       13        0       13     23

9、聯結 Concatenation

向一個已經固定行和列的資料集中分別新增行和列

10、data.dtypes 可以知道各個列的屬性

『Python學習』pandas進階學習筆記

Pandas資料分析基礎 http://blog.csdn.net/cbbing/article/details/50721468 1、 # 輸出系統當前時間 now = datetime.now() print now print now.day print now.we

Python爬蟲（入門+進階）學習筆記 1-5 使用pandas儲存豆瓣短評資料

1. Python資料分析的工具包numpy： (Numerical Python的簡稱)，是高效能科學計算和資料分析的基礎包pandas：基於Numpy建立的Python包，含有使資料分析工作變得更加簡單的高階資料結構和操作工具matplotlib：是一個用於創建出版質量圖

python進階學習（一）

分享 target for buffer yun lena hello pri true 同樣是《python基礎教程（第二版）》的內容，只是後面內容學起來，相比前面會比較有趣，也更加實用，所以，將“基礎”改為“進階”。 python 電子書分享地址：http://yu

python進階學習（一）--多線程編程

不用才會睡眠關鍵字參數 war 信息 target 函數傳遞消息隊列 1. 多線程概念：簡單地說操作系統可以同時執行多個不用程序。例如：一邊用瀏覽器上網，一邊在聽音樂，一邊在用筆記軟件記筆記。並發：指的是任務數多余cpu核數，通過操作系統的各種任務調度算

Python 進階學習筆記

def 進階學習學習 blog 私有屬性屬性和方法 .get line person 把函數作為參數 import math def add(x, y, f): return f(x) + f(y) print add(9, 16, math.sqr

Python 標準庫一覽（Python進階學習）

日誌配置 -html 令行鼓勵 python.h 垃圾 eap form types 轉自：http://blog.csdn.net/jurbo/article/details/52334345 寫這個的起因是，還是因為在做Python challenge的時候，

Python的學習之-函式進階

名稱空間又名name space，顧名思義就是存放名字的地方例：若變數x=1,1存放於記憶體中，那名字x則存放於名稱空間，名稱空間與值繫結關係的地方名稱空間共3種 1、locals：是函式內的名稱空間，包括區域性變數和形參 2、globals：全域性變數，函式定義所在模組的名字空間 3、bu

python學習------面向物件進階

一 isinstance(obj,cls)和issubclass(sub,super) isinstance(obj,cls)檢查是否obj是否是類 cls 的物件 class Foo(object): pass obj = Foo() isinstance(ob

Python爬蟲（入門+進階）學習筆記 2-6 Scrapy的Request和Response詳解

上節課我們學習了中介軟體，知道了怎麼通過中介軟體執行反反爬策略。本節課主要介紹Scrapy框架的request物件和response物件通常，Request物件在爬蟲程式中生成並傳遞到系統，直到它們到達下載程式，後者執行請求並返回一個Response物件，

Python爬蟲（入門+進階）學習筆記 1-1 什麼是爬蟲？

爬蟲的定義：網路爬蟲（又被稱為網頁蜘蛛，網路機器人，在FOAF社群中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取全球資訊網資訊的程式或者指令碼。網頁的兩種載入方法同步載入：改變網址上的某些引數會導致網頁發生改變，例如：www.itjuzi.com/compa

python進階學習筆記2-迴圈

作者：Vamei 出處：http://www.cnblogs.com/vamei05、迴圈range()S='abcdefghijklmn' for i in range(0,len(S),2): print(S[i]) #下限0，上限len(S),步長2enumerate

python爬蟲學習6_UrlLib使用進階

python爬蟲學習6_UrlLib使用進階基礎使用的話參看之前的文件：基礎使用：https://blog.csdn.net/u011486491/article/details/82844587 請求頭和代理：https://blog.csdn.net/u011486491/a

python 進階學習之1

python 安裝下載Python-3.4.0.tgz，解壓： tar -zxvf Python-3.4.0.tgz cd Python-3.4.0 ./configure --prefix=/自己的安裝目錄 python setup.pyinstall --pref

Python爬蟲（入門+進階）學習筆記 1-6 瀏覽器抓包及headers設定（案例一：爬取知乎）

爬蟲的一般思路：抓取網頁、分析請求解析網頁、尋找資料儲存資料、多頁處理本節課主要講授如何通過谷歌瀏覽器開發者工具分析真實請求的方法。尋找真實請求的三個步驟分析：使用谷歌瀏覽器開發者工具分析網頁的請求測試：測試URL請求中每個引數的作用，找出控制翻頁等功能的引數重複：多次重複

python 進階學習：列表解析效率和timeit模組

測試程式： import timeit lst = [] def test_xrange(n): global lst lst = [] for i in xrange(n): lst.append(1) assert len(lst) == n def

python進階學習筆記（三）——實現python任意個數的關鍵字引數

class Person(object): def __init__(self, name, gender, birth, **kw): self.name = name self.gender = gender self.birth = birth

Python爬蟲（入門+進階）學習筆記 2-1 爬蟲工程化及Scrapy框架初窺

本章節將會系統地介紹如何通過Scrapy框架把爬蟲工程化。本節主要內容是：簡單介紹Python和爬蟲的關係，以及將要使用的Scrapy框架的工作流程。Python適合做爬蟲的原因語言本身簡單，適合敏捷開發有比較完善的工具鏈足夠靈活，以應對各種突然狀況爬蟲的知識體系前端相關知識：html，css，js；瀏覽器相

Python進階學習筆記——函數語言程式設計之返回函式&閉包

1、返回函式 Python中除了返回函式值之外，還可以返回函式，就像前面說的，函式也可以看做一個變數，那麼返回函式的意義在於什麼呢？——延緩函式的呼叫，有什麼應用場景暫且還不知道，後續理解補充。總之，可以想呼叫該返回的函式的時候再呼叫。用慕課網上廖老師的例子說明一下：

Python爬蟲（入門+進階）學習筆記 3-1 爬蟲工程師進階（七）：HTTP請求分析

Chrome瀏覽器相對於其他的瀏覽器而言，DevTools（開發者工具）非常強大。這節課將為大家介紹怎麼利用Chrome瀏覽器的開發者工具進行HTTP請求分析Chrome瀏覽器講解Chrome 開發者工具是一套內置於Google Chrome中的Web開發和除錯工具，可用來對

PythonI/O進階學習筆記_5.python的set和dict

前言：我一直覺得對我來說學習知識很忌諱不繫統。本篇內容與上一篇自定義序列類是有聯絡的。上一篇比較通範的瞭解了序列類的一些協議和特性，並且有些list的內容。這篇更加具體到set和dict這兩個序列類。以此來了解python序列類的具體應用。（這篇比較簡單）（感覺具體比抽象都更容易理解，但是也要學會思考

『Python學習』pandas進階學習筆記

相關推薦