史上最詳細Python爬取電影教程，還不會那也是沒誰了

阿新 • • 發佈：2018-12-29

摘要：作為小白，爬蟲可以說是入門python最快和最容易獲得成就感的途徑。因為初級爬蟲的套路相對固定，常見的方法只有幾種，比較好上手。選取網頁結構較為簡單的貓眼top100電影為案例進行練習。重點是用上述所說的4種方法提取出關鍵內容。一個問題採用不同的解決方法有助於拓展思維，通過不斷練習就能夠靈活運用。

學習Python中有不明白推薦加入交流裙
號：735934841
群裡有志同道合的小夥伴，互幫互助，

群裡有免費的視訊學習教程和PDF！

本文知識點： Requsts 請求庫的使用 beautiful+lxml兩大解析庫使用正則表示式、xpath、css選擇器的使用

1. 為什麼爬取該網頁？

比較懶，不想一頁頁地去翻100部電影的介紹，想在一個頁面內進行總體瀏覽（比如在excel表格中）；

想深入瞭解一些比較有意思的資訊，比如：哪部電影的評分最高？哪位演員的作品數量最多？哪個國家/地區上榜的電影數量最多？哪一年上榜的電影作品最多等。這些資訊在網頁上是不那麼容易能直接獲得的，所以需要爬蟲。

2. 爬蟲目標

從網頁中提取出top100電影的電影名稱、封面圖片、排名、評分、演員、上映國家/地區、評分等資訊，並儲存為csv文字檔案。
根據爬取結果，進行簡單的視覺化分析。

平臺：windows7 + SublimeText3

3. 爬取步驟

3.1. 網址URL分析

首先，開啟貓眼Top100的url網址： http://maoyan.com/board/4?offset=0。頁面非常簡單，所包含的資訊就是上述所說的爬蟲目標。下拉頁面到底部，點選第2頁可以看到網址變為：http://maoyan.com/board/4?offset=10。因此，可以推斷出url的變化規律：offset表示偏移，10代表一個頁面的電影偏移數量，即：第一頁電影是從0-10，第二頁電影是從11-20。因此，獲取全部100部電影，只需要構造出10個url，然後依次獲取網頁內容，再用不同的方法提取出所需內容就可以了。

下面，用requests方法獲取第一個頁面。

3.2. Requests獲取首頁資料

先定義一個獲取單個頁面的函式：get_one_page()，傳入url引數。

 1def get_one_page(url):
 2 try:
 3 headers = {
 4 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'}
 5 # 不加headers爬不了
 6 response = requests.get(url, headers=headers)
 7 if response.status_code == 200:
 8 return response.text
 9 else:
10 return None
11 except RequestException:
12 return None
13 # try-except語句捕獲異常

接下來在main()函式中設定url。

1def main():
2 url = 'http://maoyan.com/board/4?offset=0'
3 html = get_one_page(url)
4 print(html)
5
6
7if __name__ == '__main__':
8 main()

執行上述程式後，首頁的原始碼就被爬取下來了。如下圖所示：

接下來就需要從整個網頁中提取出幾項我們需要的內容，用到的方法就是上述所說的四種方法，下面分別進行說明。

3.3. 4種內容解析提取方法

3.3.1. 正則表示式提取

第一種是利用正則表示式提取。

什麼是正則表示式？下面這串看起來亂七八糟的符號就是正則表示式的語法。

1'<dd>.*?board-index.*?>(d+)</i>.*?src="(.*?)".*?name"><a.*?>(.*?)</a>.*?'

它是一種強大的字串處理工具。之所以叫正則表示式，是因為它們可以識別正則字串（regular string）。可以這麼定義：“ 如果你給我的字串符合規則，我就返回它”；“如果字串不符合規則，我就忽略它”。通過requests抓取下來的網頁是一堆大量的字串，用它處理後便可提取出我們想要的內容。

如果還不瞭解它，可以參考下面的教程：

http://www.runoob.com/regexp/regexp-syntax.htmlhttps://www.w3cschool.cn/regexp/zoxa1pq7.html

下面，開始提取關鍵內容。右鍵網頁-檢查-Network選項，選中左邊第一個檔案然後定位到電影資訊的相應位置，如下圖：

可以看到每部電影的相關資訊都在dd這個節點之中。所以就可以從該節點運用正則進行提取。

第1個要提取的內容是電影的排名。它位於class="board-index"的i節點內。不需要提取的內容用'.*?'替代，需要提取的數字排名用（）括起來，（）裡面的數字表示為（d+）。正則表示式可以寫為：

1'<dd>.*?board-index.*?>(d+)</i>'

接著，第2個需要提取的是封面圖片，圖片網址位於img節點的'src'屬性中，正則表示式可寫為：

1'src="(.*?)".*?'

第1和第2個正則之間的程式碼是不需要的，用'.*?'替代，所以這兩部分合起來寫就是：

1'<dd>.*?board-index.*?>(d+)</i>.*?src="(.*?)"

同理，可以依次用正則寫下主演、上映時間和評分等內容,完整的正則表示式如下：

1'<dd>.*?board-index.*?>(d+)</i>.*?src="(.*?)".*?name"><a.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>'

正則表示式寫好以後，可以定義一個頁面解析提取方法：parse_one_page（），用來提取內容：

 1def parse_one_page(html):
 2 pattern = re.compile(
 3 '<dd>.*?board-index.*?>(d+)</i>.*?src="(.*?)".*?name"><a.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)
 4 # re.S表示匹配任意字元，如果不加，則無法匹配換行符
 5 items = re.findall(pattern, html)
 6 # print(items)
 7 for item in items:
 8 yield {
 9 'index': item[0],
10 'thumb': get_thumb(item[1]), # 定義get_thumb()方法進一步處理網址
11 'name': item[2],
12 'star': item[3].strip()[3:],
13 # 'time': item[4].strip()[5:],
14 # 用兩個方法分別提取time裡的日期和地區
15 'time': get_release_time(item[4].strip()[5:]),
16 'area': get_release_area(item[4].strip()[5:]),
17 'score': item[5].strip() + item[6].strip()
18 # 評分score由整數+小數兩部分組成
19 }

Tips: re.S:匹配任意字元，如果不加，則無法匹配換行符； yield:使用yield的好處是作為生成器，可以遍歷迭代，並且將資料整理形成字典，輸出結果美觀。具體用法可參考：https://blog.csdn.net/zhangpinghao/article/details/18716275； .strip():用於去掉字串中的空格。

上面程式為了便於提取內容，又定義了3個方法：get_thumb（）、get_release_time（）和 get_release_area（）：

 1# 獲取封面大圖
 2def get_thumb(url):
 3 pattern = re.compile(r'(.*?)@.*?')
 4 thumb = re.search(pattern, url)
 5 return thumb.group(1)
 6# http://p0.meituan.net/movie/[email protected]_220h_1e_1c
 7# 去掉@160w_220h_1e_1c就是大圖 
 8
 9
10# 提取上映時間函式
11def get_release_time(data):
12 pattern = re.compile(r'(.*?)((|$)')
13 items = re.search(pattern, data)
14 if items is None:
15 return '未知'
16 return items.group(1) # 返回匹配到的第一個括號(.*?)中結果即時間
17
18
19# 提取國家/地區函式
20def get_release_area(data):
21 pattern = re.compile(r'.*((.*))')
22 # $表示匹配一行字串的結尾，這裡就是(.*?)；(|$,表示匹配字串含有(,或者只有(.*?)
23 items = re.search(pattern, data)
24 if items is None:
25 return '未知'
26 return items.group(1)

Tips: 'r'：正則前面加上'r' 是為了告訴編譯器這個string是個raw string，不要轉意''。當一個字串使用了正則表示式後，最好在前面加上'r'； '|' 正則'|'表示或'，'′：∗∗正則′∣′表示或′，′'表示匹配一行字串的結尾； .group(1)：意思是返回search匹配的第一個括號中的結果，即(.*?)，gropup()則返回所有結果2013-12-18(，group(1)返回'（'。

接下來，修改main()函式來輸出爬取的內容：

 1def main():
 2 url = 'http://maoyan.com/board/4?offset=0'
 3 html = get_one_page(url)
 4
 5 for item in parse_one_page(html): 
 6 print(item)
 7
 8
 9if __name__ == '__main__':
10 main()

Tips: if _ name_ == '_ main_':當.py檔案被直接執行時，if _ name_ == '_ main_'之下的程式碼塊將被執行；當.py檔案以模組形式被匯入時，if _ name_ == '_ main_'之下的程式碼塊不被執行。參考：https://blog.csdn.net/yjk13703623757/article/details/77918633。

執行程式，就可成功地提取出所需內容，結果如下：

1{'index': '1', 'thumb': 'http://p1.meituan.net/movie/20803f59291c47e1e116c11963ce019e68711.jpg', 'name': '霸王別姬', 'star': '張國榮,張豐毅,鞏俐', 'time': '1993-01-01', 'area': '中國香港', 'score': '9.6'}
2{'index': '2', 'thumb': 'http://p0.meituan.net/movie/54617769d96807e4d81804284ffe2a27239007.jpg', 'name': '羅馬假日', 'star': '格利高裡·派克,奧黛麗·赫本,埃迪·艾伯特', 'time': '1953-09-02', 'area': '美國', 'score': '9.1'}
3{'index': '3', 'thumb': 'http://p0.meituan.net/movie/283292171619cdfd5b240c8fd093f1eb255670.jpg', 'name': '肖申克的救贖', 'star': '蒂姆·羅賓斯,摩根·弗里曼,鮑勃·岡頓', 'time': '1994-10-14', 'area': '美國', 'score': '9.5'}
4{'index': '4', 'thumb': 'http://p0.meituan.net/movie/e55ec5d18ccc83ba7db68caae54f165f95924.jpg', 'name': '這個殺手不太冷', 'star': '讓·雷諾,加里·奧德曼,娜塔莉·波特曼', 'time': '1994-09-14', 'area': '法國', 'score': '9.5'}
5{'index': '5', 'thumb': 'http://p1.meituan.net/movie/f5a924f362f050881f2b8f82e852747c118515.jpg', 'name': '教父', 'star': '馬龍·白蘭度,阿爾·帕西諾,詹姆斯·肯恩', 'time': '1972-03-24', 'area': '美國', 'score': '9.3'}
6
7...
8}
9[Finished in 1.9s]

以上是第1種提取方法，如果還不習慣正則表示式這種複雜的語法，可以試試下面的第2種方法。

3.3.2. lxml結合xpath提取

該方法需要用到lxml這款解析利器，同時搭配xpath語法，利用它的的路徑選擇表示式，來高效提取所需內容。lxml包為第三方包，需要自行安裝。如果對xpath的語法還不太熟悉，可參考下面的教程：

http://www.w3school.com.cn/xpath/xpath_syntax.asp

 1</div>
 2
 3
 4 <div class="container" id="app" class="page-board/index" >
 5
 6<div class="content">
 7 <div class="wrapper">
 8 <div class="main">
 9 <p class="update-time">2018-08-18<span class="has-fresh-text">已更新</span></p>
10 <p class="board-content">榜單規則：將貓眼電影庫中的經典影片，按照評分和評分人數從高到低綜合排序取前100名，每天上午10點更新。相關資料來源於“貓眼電影庫”。</p>
11 <dl class="board-wrapper">
12 <dd>
13 <i class="board-index board-index-1">1</i>
14 <a href="/films/1203" title="霸王別姬" class="image-link" data-act="boarditem-click" data-val="{movieId:1203}">
15 <img src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png" alt="" class="poster-default" />
16 <img src="http://p1.meituan.net/movie/[email protected]_220h_1e_1c" alt="霸王別姬" class="board-img" />
17 </a>
18 <div class="board-item-main">
19 <div class="board-item-content">
20 <div class="movie-item-info">
21 <p class="name"><a href="/films/1203" title="霸王別姬" data-act="boarditem-click" data-val="{movieId:1203}">霸王別姬</a></p>
22 <p class="star">
23 主演：張國榮,張豐毅,鞏俐
24 </p>
25<p class="releasetime">上映時間：1993-01-01(中國香港)</p> </div>
26 <div class="movie-item-number score-num">
27<p class="score"><i class="integer">9.</i><i class="fraction">6</i></p> 
28 </div>
29
30 </div>
31 </div>
32
33 </dd>
34 <dd>

根據擷取的部分html網頁，先來提取第1個電影排名資訊，有兩種方法。

第一種：直接複製。

右鍵-Copy-Copy Xpath，得到xpath路徑為：//*[@id="app"]/div/div/div[1]/dl/dd[1]/i,為了能夠提取到頁面所有的排名資訊，需進一步修改為：//*[@id="app"]/div/div/div[1]/dl/dd/i/text()，如果想要再精簡一點，可以省去中間部分絕對路徑'/'然後用相對路徑'//'代替，最後進一步修改為：//*[@id="app"]//div//dd/i/text()。

第二種：觀察網頁結構自己寫。

首先注意到id = app的div節點，因為在整個網頁結構id是唯一的不會有第二個相同的，所有可以將該div節點作為xpath語法的起點，然後往下觀察分別是3級div節點，可以省略寫為：//div,再往下分別是是兩個並列的p節點、dl節點、dd節點和最後的i節點文字。中間可以隨意省略，只要保證該路徑能夠選擇到唯一的文字值'1'即可，例如省去p和dl節點，只保留後面的節點。這樣，完整路徑可以為：//*[@id="app"]//div//dd/i/text()，和上式一樣。

根據上述思路，可以寫下其他內容的xpath路徑。觀察到路徑的前一部分：//*[@id="app"]//div//dd都是一樣的，從後面才開始不同，因此為了能夠精簡程式碼，將前部分路徑賦值為一個變數items，最終提取的程式碼如下：

 1# 2 用lxml結合xpath提取內容
 2def parse_one_page2(html):
 3 parse = etree.HTML(html)
 4 items = parse.xpath('//*[@id="app"]//div//dd')
 5 # 完整的是//*[@id="app"]/div/div/div[1]/dl/dd
 6 # print(type(items))
 7 # *代表匹配所有節點，@表示屬性
 8 # 第一個電影是dd[1],要提取頁面所有電影則去掉[1]
 9 # xpath://*[@id="app"]/div/div/div[1]/dl/dd[1] 
10 for item in items:
11 yield{
12 'index': item.xpath('./i/text()')[0],
13 #./i/text()前面的點表示從items節點開始
14 #/text()提取文字
15 'thumb': get_thumb(str(item.xpath('./a/img[2]/@src')[0].strip())),
16 # 'thumb': 要在network中定位，在elements裡會寫成@src而不是@src，從而會報list index out of range錯誤。
17 'name': item.xpath('./a/@title')[0],
18 'star': item.xpath('.//p[@class = "star"]/text()')[0].strip(),
19 'time': get_release_time(item.xpath(
20 './/p[@class = "releasetime"]/text()')[0].strip()[5:]),
21 'area': get_release_area(item.xpath(
22 './/p[@class = "releasetime"]/text()')[0].strip()[5:]),
23 'score' : item.xpath('.//p[@class = "score"]/i[1]/text()')[0] + 
24 item.xpath('.//p[@class = "score"]/i[2]/text()')[0]
25 }

Tips: [0]：xpath後面添加了[0]是因為返回的是隻有1個字串的list，新增[0]是將list提取為字串，使其簡潔；Network：要在最原始的Network選項卡中定位，而不是Elements中，不然提取不到相關內容；class屬性：p[@class = "star"]/text()表示提取class屬性為"star"的p節點的文字值；提取屬性值：img[2]/@src'：提取img節點的src屬性值，屬性值後面無需新增'/text()'

執行程式，就可成功地提取出所需內容，結果和第一種方法一樣。

以上是第2種提取方法，如果也不太習慣xpath語法，可以試試下面的第3種方法。

3.3.3. Beautiful Soup + css選擇器

Beautiful Soup 同lxml一樣，是一個非常強大的python解析庫，可以從HTML或XML檔案中提取效率非常高。關於它的用法，可參考下面的教程：

https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

css選擇器選是一種模式，用於選擇需要新增樣式的元素，使用它的語法同樣能夠快速定位到所需節點，然後提取相應內容。使用方法可參考下面的教程：

http://www.w3school.com.cn/cssref/css_selectors.asp

下面就利用這種方法進行提取：

 1# 3 用beautifulsoup + css選擇器提取
 2def parse_one_page3(html):
 3 soup = BeautifulSoup(html, 'lxml')
 4 # print(content)
 5 # print(type(content))
 6 # print('------------')
 7 items = range(10)
 8 for item in items:
 9 yield{
10
11 'index': soup.select('dd i.board-index')[item].string,
12 # iclass節點完整地為'board-index board-index-1',寫board-index即可
13 'thumb': get_thumb(soup.select('a > img.board-img')[item]["src"]),
14 # 表示a節點下面的class = board-img的img節點,注意瀏覽器eelement裡面是src節點，而network裡面是src節點，要用這個才能正確返回值
15
16 'name': soup.select('.name a')[item].string,
17 'star': soup.select('.star')[item].string.strip()[3:],
18 'time': get_release_time(soup.select('.releasetime')[item].string.strip()[5:]),
19 'area': get_release_area(soup.select('.releasetime')[item].string.strip()[5:]),
20 'score': soup.select('.integer')[item].string + soup.select('.fraction')[item].string
21
22 }

執行上述程式，結果同第1種方法一樣。

3.3.4. Beautiful Soup + find_all函式提取

Beautifulsoup除了和css選擇器搭配，還可以直接用它自帶的find_all函式進行提取。

find_all，顧名思義，就是查詢所有符合條件的元素，可以給它傳入一些屬性或文字來得到符合條件的元素，功能十分強大。

它的API如下：

1find_all(name , attrs , recursive , text , **kwargs)

常用的語法規則如下： soup.find_all(name='ul')：查詢所有ul節點，ul節點內還可以巢狀； li.string和li.get_text()：都是獲取li節點的文字，但推薦使用後者；soup.find_all(attrs={'id': 'list-1'}))：傳入 attrs 引數，引數的型別是字典型別，表示查詢 id 為 list-1 的節點；常用的屬性比如 id、class 等，可以省略attrs採用更簡潔的形式，例如：soup.find_all(id='list-1') soup.find_all(class_='element')

根據上述常用語法，可以提取網頁中所需內容：

 1def parse_one_page4(html):
 2 soup = BeautifulSoup(html,'lxml')
 3 items = range(10)
 4 for item in items:
 5 yield{
 6
 7 'index': soup.find_all(class_='board-index')[item].string,
 8 'thumb': soup.find_all(class_ = 'board-img')[item].attrs['src'],
 9 # 用.get('src')獲取圖片src連結，或者用attrs['src']
10 'name': soup.find_all(name = 'p',attrs = {'class' : 'name'})[item].string,
11 'star': soup.find_all(name = 'p',attrs = {'class':'star'})[item].string.strip()[3:],
12 'time': get_release_time(soup.find_all(class_ ='releasetime')[item].string.strip()[5:]),
13 'area': get_release_time(soup.find_all(class_ ='releasetime')[item].string.strip()[5:]),
14 'score':soup.find_all(name = 'i',attrs = {'class':'integer'})[item].string.strip() + soup.find_all(name = 'i',attrs = {'class':'fraction'})[item].string.strip()
15
16 }

以上就是4種不同的內容提取方法。

3.4. 資料儲存

上述輸出的結果為字典格式，可利用csv包的DictWriter函式將字典格式資料儲存到csv檔案中。

1# 資料儲存到csv
2def write_to_file3(item):
3 with open('貓眼top100.csv', 'a', encoding='utf_8_sig',newline='') as f:
4 # 'a'為追加模式（新增）
5 # utf_8_sig格式匯出csv不亂碼 
6 fieldnames = ['index', 'thumb', 'name', 'star', 'time', 'area', 'score']
7 w = csv.DictWriter(f,fieldnames = fieldnames)
8 # w.writeheader()
9 w.writerow(item)

然後修改一下main()方法：

 1def main():
 2 url = 'http://maoyan.com/board/4?offset=0'
 3 html = get_one_page(url)
 4
 5 for item in parse_one_page(html): 
 6 # print(item)
 7 write_to_csv(item)
 8
 9
10if __name__ == '__main__':
11 main()

結果如下圖：

再將封面的圖片下載下來：

 1def download_thumb(name, url,num):
 2 try:
 3 response = requests.get(url)
 4 with open('封面圖/' + name + '.jpg', 'wb') as f:
 5 f.write(response.content)
 6 print('第%s部電影封面下載完畢' %num)
 7 print('------')
 8 except RequestException as e:
 9 print(e)
10 pass
11 # 不能是w，否則會報錯，因為圖片是二進位制資料所以要用wb

3.5. 分頁爬取

上面完成了一頁電影資料的提取，接下來還需提取剩下9頁共90部電影的資料。對網址進行遍歷，給網址傳入一個offset引數即可，修改如下：

 1def main(offset):
 2 url = 'http://maoyan.com/board/4?offset=' + str(offset)
 3 html = get_one_page(url)
 4
 5 for item in parse_one_page(html): 
 6 # print(item)
 7 write_to_csv(item)
 8
 9
10if __name__ == '__main__':
11 for i in range(10):
12 main(offset = i*10)

這樣就完成了所有電影的爬取。結果如下：

4. 視覺化分析

俗話說“文不如表，表不如圖”。下面根據excel的資料結果，進行簡單的資料視覺化分析，並用圖表呈現。

4.1. 電影評分最高top10

首先，想看一看評分最高的前10部電影是哪些？

程式如下：

 1import pandas as pd
 2import matplotlib.pyplot as plt
 3import pylab as pl #用於修改x軸座標
 4
 5plt.style.use('ggplot') #預設繪圖風格很難看，替換為好看的ggplot風格
 6fig = plt.figure(figsize=(8,5)) #設定圖片大小
 7colors1 = '#6D6D6D' #設定圖表title、text標註的顏色
 8
 9columns = ['index', 'thumb', 'name', 'star', 'time', 'area', 'score'] #設定表頭
10df = pd.read_csv('maoyan_top100.csv',encoding = "utf-8",header = None,names =columns,index_col = 'index') #開啟表格
11# index_col = 'index' 將索引設為index
12
13df_score = df.sort_values('score',ascending = False) #按得分降序排列
14
15name1 = df_score.name[:10] #x軸座標
16score1 = df_score.score[:10] #y軸座標 
17plt.bar(range(10),score1,tick_label = name1) #繪製條形圖，用range()能搞保持x軸正確順序
18plt.ylim ((9,9.8)) #設定縱座標軸範圍
19plt.title('電影評分最高top10',color = colors1) #標題
20plt.xlabel('電影名稱') #x軸標題
21plt.ylabel('評分') #y軸標題
22
23# 為每個條形圖新增數值標籤
24for x,y in enumerate(list(score1)):
25 plt.text(x,y+0.01,'%s' %round(y,1),ha = 'center',color = colors1)
26
27pl.xticks(rotation=270) #x軸名稱太長髮生重疊，旋轉為縱向顯示
28plt.tight_layout() #自動控制空白邊緣，以全部顯示x軸名稱
29# plt.savefig('電影評分最高top10.png') #儲存圖片
30plt.show()

結果如下圖：

可以看到：排名最高的分別是兩部國產片"霸王別姬"和"大話西遊"，其他還包括"肖申克的救贖"、"教父"等。

嗯，還好基本上都看過。

4.2. 各國家的電影數量比較

然後，想看看100部電影都是來自哪些國家？

程式如下：

 1area_count = df.groupby(by = 'area').area.count().sort_values(ascending = False)
 2
 3# 繪圖方法1
 4area_count.plot.bar(color = '#4652B1') #設定為藍紫色
 5pl.xticks(rotation=0) #x軸名稱太長重疊，旋轉為縱向
 6
 7
 8# 繪圖方法2
 9# plt.bar(range(11),area_count.values,tick_label = area_count.index)
10
11for x,y in enumerate(list(area_count.values)):
12 plt.text(x,y+0.5,'%s' %round(y,1),ha = 'center',color = colors1)
13plt.title('各國/地區電影數量排名',color = colors1)
14plt.xlabel('國家/地區')
15plt.ylabel('數量(部)')
16plt.show()
17# plt.savefig('各國(地區)電影數量排名.png')

結果如下圖：

可以看到，除去網站自身沒有顯示國家的電影以外，上榜電影被10個國家/地區"承包"了。其中，美國以30部電影的絕對優勢佔據第1名，其次是8部的日本，韓國第3，居然有7部上榜。

不得不說的是香港有5部，而內地一部都沒有。。。

4.3. 電影作品數量集中的年份

接下來站在漫長的百年電影史的時間角度上，分析一下哪些年份"貢獻了"最多的電影數量，也可以說是"電影大年"。

 1# 從日期中提取年份
 2df['year'] = df['time'].map(lambda x:x.split('/')[0])
 3# print(df.info())
 4# print(df.head())
 5
 6# 統計各年上映的電影數量
 7grouped_year = df.groupby('year')
 8grouped_year_amount = grouped_year.year.count()
 9top_year = grouped_year_amount.sort_values(ascending = False)
10
11
12# 繪圖
13top_year.plot(kind = 'bar',color = 'orangered') #顏色設定為橙紅色
14for x,y in enumerate(list(top_year.values)):
15 plt.text(x,y+0.1,'%s' %round(y,1),ha = 'center',color = colors1)
16plt.title('電影數量年份排名',color = colors1)
17plt.xlabel('年份(年)')
18plt.ylabel('數量(部)')
19
20plt.tight_layout()
21# plt.savefig('電影數量年份排名.png')
22
23plt.show()

結果如下圖：

可以看到，100部電影來自37個年份。其中2011年上榜電影數量最多，達到9部；其次是前一年的7部。回憶一下，那會兒正是上大學的頭兩年，可怎麼感覺除了阿凡達之外，沒有什麼其他有印象的電影了。。。

另外，網上傳的號稱"電影史奇蹟年"的1994年僅排名第6。這讓我進一步對貓眼榜單的權威性產生了質疑。

再往後看，發現遙遠的1939和1940年也有電影上榜。那會兒應該還是黑白電影時代吧，看來電影的口碑好壞跟外在的技術沒有絕對的關係，質量才是王道。

4.3.1. 擁有電影作品數量最多的演員

最後，看看前100部電影中哪些演員的作品數量最多。

程式如下：

 1#表中的演員位於同一列，用逗號分割符隔開。需進行分割然後全部提取到list中
 2starlist = []
 3star_total = df.star
 4for i in df.star.str.replace(' ','').str.split(','):
 5 starlist.extend(i) 
 6# print(starlist)
 7# print(len(starlist))
 8
 9# set去除重複的演員名
10starall = set(starlist)
11# print(starall)
12# print(len(starall))
13
14starall2 = {}
15for i in starall:
16 if starlist.count(i)>1:
17 # 篩選出電影數量超過1部的演員
18 starall2[i] = starlist.count(i)
19
20starall2 = sorted(starall2.items(),key = lambda starlist:starlist[1] ,reverse = True)
21
22starall2 = dict(starall2[:10]) #將元組轉為字典格式
23
24# 繪圖
25x_star = list(starall2.keys()) #x軸座標
26y_star = list(starall2.values()) #y軸座標
27
28plt.bar(range(10),y_star,tick_label = x_star)
29pl.xticks(rotation = 270)
30for x,y in enumerate(y_star):
31 plt.text(x,y+0.1,'%s' %round(y,1),ha = 'center',color = colors1)
32
33plt.title('演員電影作品數量排名',color = colors1)
34plt.xlabel('演員')
35plt.ylabel('數量(部)')
36plt.tight_layout()
37plt.show() 
38# plt.savefig('演員電影作品數量排名.png')

結果如下圖：

張國榮排在了第一位，這是之前沒有猜到的。其次是梁朝偉和星爺，再之後是布拉德·皮特。驚奇地發現，前十名影星中，香港影星居然佔了6位。有點嚴重懷疑這是不是香港版的top100電影。。。

對張國榮以7部影片的巨大優勢雄霸榜單第一位感到好奇，想看看是哪7部電影。

1df['star1'] = df['star'].map(lambda x:x.split(',')[0]) #提取1號演員
2df['star2'] = df['star'].map(lambda x:x.split(',')[1]) #提取2號演員
3star_most = df[(df.star1 == '張國榮') | (df.star2 == '張國榮')][['star','name']].reset_index('index')
4# |表示兩個條件或查詢，之後重置索引
5print(star_most)

可以看到包括排名第1的"霸王別姬"、第17名的"春光乍洩"、第27名的"射鵰英雄傳之東成西就"等。

突然發現，好像只看過"英雄本色"。。。有時間，去看看他其他的作品。

1 index star name
20 1 張國榮,張豐毅,鞏俐 霸王別姬
31 17 張國榮,梁朝偉,張震 春光乍洩
42 27 張國榮,梁朝偉,張學友 射鵰英雄傳之東成西就
53 37 張國榮,梁朝偉,劉嘉玲 東邪西毒
64 70 張國榮,王祖賢,午馬 倩女幽魂
75 99 張國榮,張曼玉,劉德華 阿飛正傳
86 100 狄龍,張國榮,周潤發 英雄本色

由於資料量有限，故僅作了上述簡要的分析。

史上最詳細Python爬取電影教程，還不會那也是沒誰了

史上最詳細Python爬取電影教程，還不會那也是沒誰了

python爬取電影原始碼，小編以後看電影再也不用VIP了（有程式碼）

史上最詳細的正則表示式教程

史上最詳細的Android Studio系列教程（一）--下載和安裝

【轉】史上最詳細的Composer安裝tp5教程

史上最詳細的Android Studio系列教程四--Gradle基礎

史上最詳細的Android Studio系列教程(一)

史上最詳細的Android Studio系列教程

史上最全socket模組詳解！沒有學不會的模組！只有學不學的模組！

Python自動搶紅包，超詳細教程，再也不會錯過微信紅包了！

利用Python實現導彈自動追蹤！室友面前的裝逼利器！史上最詳細！

史上最詳細的爬蟲教程，Python採集全網最受歡迎的 500 本書！

史上最詳細、最完全的ipython使用教程，Python使用者必備！——ipython系列之二

史上最詳細、最完全的ipython使用教程，Python使用者必備！——ipython系列之一

史上最全python面試題詳解（二）（附帶詳細答案（關注、持續更新））

史上最全python面試題詳解（三）（附帶詳細答案（關注、持續更新））

【python小課堂專欄】python小課堂15 - 史上最詳細的包和模組import講解篇

【python小課堂專欄】python小課堂14 - 史上最詳細安裝破解PyCharm篇

Leetcode 079 搜尋單詞 Python C++ 史上最詳細題解系列

python爬取電影天堂 _上

史上最詳細Python爬取電影教程，還不會那也是沒誰了

相關推薦