基於BeautifulSoup爬取豆瓣網上的電影資訊

阿新 • • 發佈：2019-02-17

基於BeautifulSoup實現爬取豆瓣網上的電影資訊

這些天在學習Python，瞭解到用Python做網頁網頁爬蟲非常的方便，於是琢磨著寫了一個簡單的爬蟲程式（感謝萬能的beautifulSoup框架，ps:做網頁解析太方便了）。當然這是計劃中的一部分，說來話長，一開始本來想做一個電影推薦系統（當然和豆瓣的推薦系統不太一樣），傳統的推薦系統是利用基於一種統計的方法，利用觀眾對電影的評分進行統計學處理找到合適的電影推薦個使用者（涉及協作型過濾，蒐集偏好，相似度評價等過程）；但是這是一種“大多數說好，就是好的”推薦方法。我想做的是一種主動式的推薦方法：利用對電影的理解（包括電影分格、劇情、演員等要素）對電影本身進行相似度計算，例如一個使用者喜歡看《康熙王朝》，康熙王朝的劇情是講述了一代聖君康熙從登記到歸天所做的豐功偉績，根據對劇情的分析，相類似的還有《漢武大帝》，《成吉思汗》，《雍正王朝》等電視劇，當然豆瓣推薦也能達到這種效果（在豆瓣主頁上輸入一個電影名字以後，出現的網頁下面會有一欄“喜歡這部電影的人也喜歡......”），推薦本質是不一樣的，我設想的方法更多的是對劇情的理解，來找相關的電影，更多涉及的技術難點是對自然語言語義的理解、相似度分析，而不是基於大多數人的“共同愛好”來進行推薦。萬里長城還是得一步一步的走，先爬下來網頁資料才是首要任務。
先說下我的網頁爬蟲實現的功能：可以根據豆瓣網上的不用電影分類進行單獨的爬取，在程式中，我爬取了電影的名字、電影的評分、以及評論該電影的觀眾的數量三個資料，並且可以設定爬取的電影的資料的量（當然理論上是可以無限制的爬取豆瓣上的所有電影）。
**接下來的內容將分兩部分介紹：**
            1. BeautifulSoup簡單介紹
            2. Python爬蟲的實現

一、BeautifulSoup簡潔

簡單來說，BeautifulSoup是python的一個庫，最主要的功能室從網頁上解析資料，官方的解釋如下：

  **Beautiful Soup提供一些簡單的、python式的函式用來處理導航、搜尋、修改分析樹等功能。它是一個工具箱，通過解析文件為使用者提供需要抓取的資料，因為簡單，所以不需要多少程式碼就可以寫出一個完整的應用程式。
Beautiful Soup自動將輸入文件轉換為Unicode編碼，輸出文件轉換為utf-8編碼。你不需要考慮編碼方式，除非文件沒有指定一個編碼方式，這時，Beautiful Soup就不能自動識別編碼方式了。然後，你僅僅需要說明一下原始編碼方式就可以了。
Beautiful Soup已成為和lxml、html6lib一樣出色的python 
直譯器，為使用者靈活地提供不同的解析策略或強勁的速度。**

[當然，如果想要系統學習的話，還是去檢視官方文件，寫的特別詳細，而且有詳細的例項，可以快速入門。](https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html)
在我的爬蟲程式中，其實主要用的解析函式只有一個，即find_all()函式,如下例項：

#網頁原始碼:
# <html>
#  <head>
#   <title>
#    The Dormouse's story
#   </title>
#  </head> 

#  <body>
#   <p class="title">
#    <b>
#     The Dormouse's story
#    </b>
#   </p>
#   <p class="story">
#    Once upon a time there were three little sisters; and their names were
#    <a class="sister" href="http://example.com/elsie" id="link1">
#     Elsie
#    </a>
#    ,
#    <a class="sister" href="http://example.com/lacie" id="link2">
#     Lacie
#    </a>
#    and
#    <a class="sister" href="http://example.com/tillie" id="link2">
#     Tillie
#    </a>
#    ; and they lived at the bottom of a well.
#   </p>
#   <p class="story">
#    ...
#   </p>
#  </body>
# </html>

上述程式打印出的是網頁的原始碼，很容易看出上述程式碼的特點，<p>和<\p>、<body><\body>、<a>和<\a>等都是成對出現的，這就是HTML程式碼的特點，利用beautifulSoup中的find_all()函式可以分別解析出各個標籤下的內容

soup.find_all('a')
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
#  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
#  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

只要在find_all（）函式的引數中傳入‘a’，那麼就能解析出網頁內容中所有包含<a>和<\a>內容了，而且是以序列的方式返回，是不是覺著非常方便，當然這只是find_all函式的一個簡單用法，還有一個用法就是可以根據屬性值進行查詢，在標籤內部，有些引數是屬於屬性值，例如id="link1"、class="tip-link"等值，find_all函式同樣能勝任查詢具有某個屬性的標籤，例如：

soup.find_all(id='link2')
# [<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

這只是在本文中的爬蟲程式中用到的兩個基本功能，更多關於find_all（）函式的妙用請檢視官方文件。。。

二、爬蟲程式的Python實現：

知道了用到的基本技術之後，相信如果對python有一定基礎的，很快就能搞定爬蟲程式了，接下來是整個的原始碼：

#-*— coding:UTF-8 -*-
from bs4 import BeautifulSoup #匯入BeautifulSoup模組
import requests  #匯入requests網頁請求模組
initUrl = 'https://movie.douban.com'   #豆瓣網網址
urls = 'https://movie.douban.com/tag/#!/i!/ckDefault'  #豆瓣網所有電影的分類網址
#獲得電影的分類資訊，以便下一步從分類資訊中分類的爬取網頁
def requreMovieLable(url = urls):
    data = []
    web_data = requests.get(url) #根據網頁連結獲取網頁原始碼
    soup = BeautifulSoup(web_data.text) #網頁預處理
    cataLog = soup.tbody.find_all('a')  #獲取html原始碼中含有<a><\a>標籤中的內容
    for item in cataLog:
        data.append(initUrl + item.get('href'))     #提取<a><\a>標籤中的網頁連結
        # print data
    return data #以列表形式返回各個電影標籤的網頁連結，例如data[0]中包含‘愛情’分類的電影，data[1]中包含‘喜劇’分類的電影，等等
#爬取該網頁的電影名稱、評分、評論人數等資訊
def parsMovie(url = urls):
    web_data = requests.get(url)     #根據網頁連結獲取網頁原始碼
    soup = BeautifulSoup(web_data.text) #網頁預處理
    movieNamePre = soup.find_all(class_="nbg") #尋找網頁原始碼中含有屬性值為‘class_="nbg"’的特定標籤
    movieValueAndNumPre = soup.find_all(class_='star clearfix')  #尋找網頁原始碼中含有屬性值為‘class_='star clearfix'’的特定標籤
    movieValue = []     #儲存電影的評分值
    movieNum = []       #儲存特定電影的評論人數
    for item in movieValueAndNumPre:
        movieValue.append(item.span.next_sibling.next_sibling.text)  #儲存電影的評分
        movieNum.append(item.span.next_sibling.next_sibling.next_sibling.next_sibling.text)    #儲存電影的評論數
    # print movieValueAndNum
    movieName = []   #儲存電影的名字資訊
    for item in movieNamePre:
        movieName.append(item.get('title'))   #解析獲取原始碼中的電影名稱
    u = zip(movieName,movieValue,movieNum)    #將電影名、電影評分、評論人數zip成一個元組
    #輸出解析出的結果資訊
    for name ,val ,num in u:
        print name
        print val
        print num
        print '----' * 10
ul = requreMovieLable(urls)     #獲取主頁面各個電影分類的url地址存取在列表中
page = 3        #設定下載網頁列表的個數
firstUl = ul[0]  #爬取‘愛情’分類下的所有電影
for i in range(0,page):
    print '----------------第%d頁的電影---------------' % i
    parsMovie(firstUl + '?start={}&type=T'.format(str(i*20)))

以下是程式的輸出結果（只截取了部分）：
這裡寫圖片描述

初次寫部落格，希望大家批評指正！！

基於BeautifulSoup爬取豆瓣網上的電影資訊

基於BeautifulSoup實現爬取豆瓣網上的電影資訊這些天在學習Python，瞭解到用Python做網頁網頁爬蟲非常的方便，於是琢磨著寫了一個簡單的爬蟲程式（感謝萬能的beautifulSoup框架，ps:做網頁解析太方便了）。當然這是計劃中的一部分，說

2-6-1 應用案例：爬取豆瓣 TOP250 電影資訊並存儲（版本：py3）——學習筆記

爬取電影名稱、連結並寫入檔案 import urllib.request as urlrequest from bs4 import BeautifulSoup import time #休息時間 import random #為了時間隨機 top250_url="htt

【Python爬蟲第二彈】基於爬蟲爬取豆瓣書籍的書籍資訊查詢

爬蟲學了有半個月的時間了，其實這半個月真正學到的東西也不過就是requsets和beautifulsoup的用法，慚愧，收穫不太大，還沒有接觸scrapy框架，但是光這個beautifulsoup可以完成的事情已經很多了，然後簡單的使用了pandas可以將爬取到

Python爬蟲之利用BeautifulSoup爬取豆瓣小說（三）——將小說信息寫入文件

設置 one 行為 blog 應該 += html uil rate 1 #-*-coding:utf-8-*- 2 import urllib2 3 from bs4 import BeautifulSoup 4 5 class dbxs: 6 7

《團隊-爬取豆瓣Top250電影-團隊-階段互評》

溝通爬取 top 負責負責任完成好的電影責任學號：2015035107080得分：9.8原因：認真完成任務，與組員相互溝通交流，相互協作。學號：2015035107152得分：9.6原因：為人誠實謙虛，能吃苦耐勞，敏而好學，積極尋找答案。學號：201503

團隊-爬取豆瓣Top250電影-團隊-階段互評

尋找爬取編程階段豆瓣 top 積極領導耐心學號：2015035107001得分：8.5 原因：有耐心，較為認真學號：2015035107004得分：9.6 原因：結對編程夥伴，負責學號：2015035107080得分：10 原因：領導性較強，認真負責，樂

python爬蟲--爬取豆瓣top250電影名

python爬蟲--爬取豆瓣top250電影名關於模擬瀏覽器登入的header，可以在相應網站按F12調取出編輯器，點選netwook，如下：以便於不會被網站反爬蟲拒絕。 1 import requests 2 from bs4 import BeautifulSoup

python scrapy框架爬取豆瓣top250電影篇一代理編寫

爬蟲偽裝: UA中介軟體編寫 settings設定 from scrapy import signals import base64 import random class my_useragent(object): def process_req

python scrapy框架爬取豆瓣top250電影篇一儲存資料到mongogdb | mysql中

存到mongodb中環境 windows7 mongodb4.0 mongodb安裝教程設定具體引數在管道里面寫具體引數開啟settings 設定引數測試開始–結果程式碼 import pymongo from douban.

python scrapy框架爬取豆瓣top250電影篇一明確目標&&爬蟲編寫

1.明確目標 1.1在url上找到要爬取的資訊 1.2.確定了資訊,編寫items檔案 class DoubanItem(scrapy.Item): &nb

requests+beautifulsoup爬取豆瓣圖書

使用Xpath和BeautifulSoup來解析網頁可以說真的很簡便。 import requests from bs4 import BeautifulSoup from random import choice url = 'https://book.douban.com/tag/%E7%BC%96%

Python爬蟲入門 | 4 爬取豆瓣TOP250圖書資訊

我們將要爬取哪些資訊：書名、連結、評分、一句話評價…… 1. 爬取單個資訊我們先來嘗試爬取書名，利用之前的套路，還是先複製書名的xpath：得到第一本書《追風箏的人》的書名xpath如下： //*[@id=

爬蟲實戰（一）——利用scrapy爬取豆瓣華語電影

爬蟲第一個專案是爬取豆瓣華語電影，後面將對這部分資料進行分析。本文也是發表於『運籌OR帷幄』微信公眾號的《用資料帶你瞭解電影行業—華語篇》的爬蟲介紹篇。 1. 爬取思路在觀察了豆瓣每個影片的連結地址後，寫下了主要思路：（1）在豆瓣電影的選片頁面，篩選所有華

爬取豆瓣的圖書資訊

emmm，感謝豆瓣提供的平臺，爬也沒那麼多反爬蟲機制。於是順手爬了。。。# coding:utf-8# 採集豆瓣書資訊和圖片，寫進資料庫from urllib import parsefrom urllib import requestfrom lxml import etr

爬取豆瓣高分電影榜實例

enc 編碼實例 port ble nbsp 部分 write tps 一、環境　　win7 + python 3.6 二、代碼 import requests from bs4 import BeautifulSoup seq = 0 for preSumCoun

Python爬取豆瓣高分電影前250名

score work format 表頭 amp apple 演員 dir 日期 import requests import pymysql import time import re import xlwt from lxml import etree headers

案例學python——案例三：豆瓣電影資訊入庫一起學爬蟲——通過爬取豆瓣電影top250學習requests庫的使用

　閒扯皮昨晚給高中的妹妹微信講題，函式題，小姑娘都十二點了還迷迷糊糊。今天凌晨三點多，被連續的警報聲給驚醒了，以為上海拉了防空警報，難不成地震，空襲？難道是樓下那個車主車子被堵了，長按喇叭？開窗看看，好像都不是。好鬼畜的警報聲，家裡也沒裝報警器啊，莫不成家裡煤氣漏了？起床循聲而查，報警

python爬取豆瓣電影Top250的資訊

python爬取豆瓣電影Top250的資訊 2018年07月25日 20:03:14 呢喃無音閱讀數：50 python爬取豆瓣電影Top250的資訊。初學，所以程式碼的不夠美觀和精煉。如果程式碼有錯，請各位讀者在評論區評論，以免誤導其他同學。（

python爬蟲——爬取豆瓣電影top250資訊並載入到MongoDB資料庫中

最近在學習關於爬蟲方面的知識，因為剛開始接觸，還是萌新，所以有什麼錯誤的地方，歡迎大家指出 from multiprocessing import Pool from urllib.request import Request, urlopen import re, pymongo index

【Python爬蟲】Scrapy框架運用1—爬取豆瓣電影top250的電影資訊(1)

一、Step step1: 建立工程專案 1.1建立Scrapy工程專案 E:\>scrapy startproject 工程專案 1.2使用Dos指令檢視工程資料夾結構 E:\>tree /f step2: 建立spid

基於BeautifulSoup爬取豆瓣網上的電影資訊

基於BeautifulSoup實現爬取豆瓣網上的電影資訊

一、BeautifulSoup簡潔

二、爬蟲程式的Python實現：

相關推薦