利用python爬蟲獲取豆瓣讀書資料建立書單

阿新 • • 發佈：2019-02-08

0. 寫在前面

網路爬蟲：

A Web crawler, sometimes called a spider, is an Internet bot that systematically browses the World Wide Web, typically for the purpose of Web indexing (web spidering)

本文參考了網上教程、資料、程式碼，寫了一個小爬蟲，爬取豆瓣讀書上的書籍資訊，最終目的是建立一個基於標籤資訊的書單

1. 前期準備

1.1 依賴工具

python 3.6
以及python第三方庫：
    requests
    urllib
    re

1.2 網頁分析

1.2.1 抓取站點

目標網站：豆瓣讀書：
豆瓣讀書首頁

https://book.douban.com/tag/小說?start=20&type=S

可知，tag代表圖書標籤型別，Type=S代表按照評分對圖書排序，而start=20代表該頁面第一本書的序號
則村上春樹標籤下圖書第三頁的url為：

https://book.douban.com/tag/村上春樹?start=40&type=S

1.2.2 Robots協議

開始寫爬蟲前，先確定目標網頁是否允許爬取相關頁面
呼叫urllib庫的robotparser模組，訪問https://book.douban.com/robots.txt

獲取豆瓣讀書的robots協議

from urllib.robotparser import RobotFileParser

UrlRobots = 'https://book.douban.com/robots.txt'

def GetRobotsTxt(url) :
    rp = RobotFileParser()
    rp.set_url(url)
    rp.read()
    print(rp.can_fetch('*', 'https://book.douban.com/tag/?view=type&icn=index-sorttags-all'))
    print(rp.can_fetch('*' 
, 'https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4'))
    print(rp.can_fetch('*', 'https://book.douban.com/'))

GetRobotsTxt(UrlRobots)

Robots協議為：

User-agent: *
Disallow: /subject_search
Disallow: /search
Disallow: /new_subject
Disallow: /service/iframe
Disallow: /j/
Sitemap: http://www.douban.com/sitemap_index.xml
Sitemap: http://www.douban.com/sitemap_updated_index.xml

User-agent: Wandoujia Spider
Disallow: /

程式返回結果為：

ture
ture
ture

則上述網站皆在可爬範圍內

1.2.3 分析程式碼

先從要抓取資料的網站程式碼裡提取需要的程式碼塊如下所示：

<li class="subject-item">
    <div class="pic">
      <a class="nbg" href="https://book.douban.com/subject/1057244/" 
  onclick="moreurl(this,{i:'0',query:'',subject_id:'1057244',from:'book_subject_search'})">
        <img class="" src="https://img1.doubanio.com/mpic/s1595557.jpg"
          width="90">
      </a>
    </div>
    <div class="info">
      <h2 class="">

  <a href="https://book.douban.com/subject/1057244/" title="邊城" 
  onclick="moreurl(this,{i:'0',query:'',subject_id:'1057244',from:'book_subject_search'})">
    邊城
  </a>

      </h2>
      <div class="pub">

  沈從文、黃永玉 卓雅 插圖. / 北嶽文藝出版社 / 2002-4 / 12.00元

      </div>

  <div class="star clearfix">
        <span class="allstar45"></span>
        <span class="rating_nums">8.6</span>

    <span class="pl">
        (73914人評價)
    </span>
  </div>

    <p>《邊城》是沈從文的代表作，寫於一九三三年至一九三四年初。這篇作品如沈從文的其他湘西作品，著眼於普通人、善良人的命運變遷，描摹了湘女翠翠陰差陽錯的生活悲劇，誠... </p>

      <div class="ft">
  <div class="collect-info">
  </div>
        <div class="cart-actions">
    <span class="buy-info">
      <a href="https://book.douban.com/subject/1057244/buylinks">
        紙質版 7.80 元起
      </a>
    </span>
          </div>
      </div>
    </div>
  </li>

其中我們可以提取到的資訊包含：

程式碼開始位置：<li class="subject-item">
程式碼結束位置：</li>
書籍相關資訊：圖書豆瓣網頁地址，圖書封面地址，書名，作者、譯者資訊，出版資訊，價格，評分，評價數目，內容簡介

由此可以寫出對應的正則表示式，從而提取出需要資料：

class="nbg" href="(.*?)".*?src="(.*?)".*?title="(.*?)".*?<div class="pub">\s*(.*?)\/.*?nums">(.*?)</span>.*?<p>(.*?)</p>

2. 程式碼

2.1 獲取網頁

在這個專案中，我人為地設定了每個標籤抓取5頁圖書內容，即100本書，並將每頁程式碼儲存至HtmlCode.txt中

def GetOneType(UrlLabel,Headers,Num):
    for i in range(5):
        print('正在抓取' + labels[Num] +'類的第' + str(i+1) + '頁')
        url = UrlLabel + '?start=' + str(i*20) + '&type=S'

        rp = requests.get(url, headers = Headers)

        with open("HtmlCode.txt", 'w', encoding = 'utf-8') as f:
            f.write(rp.text)
        ReEx(Num)
        time.sleep(3 + random.random())

2.2 正則表示式

獲取網頁程式碼後，進行正則表示式匹配分析，提取出有效資料，並儲存至對應txt文件中

def ReEx(Num):
    FileName = 'result' + str(Num) + '.txt'
    with open('HtmlCode.txt', 'r', encoding = 'utf-8') as file_re:
        content = file_re.read()
        STR = r'class="nbg" href="(.*?)".*?src="(.*?)".*?title="(.*?)".*?<div class="pub">\s*(.*?)\/.*?nums">(.*?)</span>.*?<p>(.*?)</p>'

        result = re.findall(STR, content, re.S|re.M)
        #print(result)

        with open(FileName, 'a', encoding = 'utf-8') as file_result:
            file_result.write(str(result))

2.3 main

分標籤爬取所有資料

#標籤內容可根據豆瓣標籤頁更改資料
labels = ['小說', '外國文學', '文學', '隨筆', '中國文學', '經典', '日本文學', '散文', '村上春樹']

def GetAllPages():
    for i in range(len(labels)):
        UrlLabel = 'https://book.douban.com/tag/' + labels[i]
        GetOneType(UrlLabel,Headers,i)
    print('抓取完成')

2.4 爬取結果

小說.txt檔案裡部分資料：

    *   ('https://book.douban.com/subject/1770782/', 'https://img3.doubanio.com/mpic/s1727290.jpg', '追風箏的人', '[美] 卡勒德·胡賽尼 ', '8.9', '12歲的阿富汗富家少爺阿米爾與僕人哈桑情同手足。然而，在一場風箏比賽後，發生了一件悲慘不堪的事，阿米爾為自己的懦弱感到自責和痛苦，逼走了哈桑，不久，自己也跟... '),
    *   ('https://book.douban.com/subject/1008145/', 'https://img3.doubanio.com/mpic/s1070222.jpg', '圍城', '錢鍾書 ', '8.9', '《圍城》是錢鍾書所著的長篇小說。第一版於1947年由上海晨光出版公司出版。1949年之後，由於政治等方面的原因，本書長期無法在中國大陸和臺灣重印，僅在香港出... ')
    *   ('https://book.douban.com/subject/1082154/', 'https://img3.doubanio.com/mpic/s23836852.jpg', '活著', '餘華 ', '9.1', '地主少爺福貴嗜賭成性，終於賭光了家業一貧如洗，窮困之中的福貴因為母親生病前去求醫，沒想到半路上被國民黨部隊抓了壯丁，後被解放軍所俘虜，回到家鄉他才知道母親已... ')
    *   ('https://book.douban.com/subject/1200840/', 'https://img3.doubanio.com/mpic/s2335693.jpg', '平凡的世界（全三部）', '路遙 ', '9.0', '《平凡的世界》是一部現實主義小說，也是一部小說形式的家族史。作者濃縮了中國西北農村的歷史變遷過程，在小說中全景式地表現了中國當代城鄉的社會生活。在近十年的廣... ')
    *   ('https://book.douban.com/subject/25862578/', 'https://img3.doubanio.com/mpic/s27264181.jpg', '解憂雜貨店', '[日] 東野圭吾 ', '8.6', '現代人內心流失的東西，這家雜貨店能幫你找回——\n僻靜的街道旁有一家雜貨店，只要寫下煩惱投進捲簾門的投信口，第二天就會在店後的牛奶箱裡得到回答。\n因男友身患絕... ')

3. 總結

本文只是使用了爬蟲技術中的一些最基本操作，完成提取並存儲豆瓣讀書的資料
但是不足的地方在於未使用IP代理、cookie等反“反爬蟲”措施，僅使用延時手段，避免ip地址被封
且只提取出了資料，未進行資料視覺化。這些都是亟待完善的地方

利用python爬蟲獲取豆瓣讀書資料建立書單

0. 寫在前面網路爬蟲： A Web crawler, sometimes called a spider, is an Internet bot that systematically browses the World Wide Web, t

利用python爬蟲獲取黃金價格

繼續練手，根據之前獲取汽油價格的方式獲取了金價，暫時沒錢投資，看看而已 #!/usr/bin/env python # -*- coding: utf-8 -*- """ 獲取每天黃金價格 @author: yufei @site: http://www.a

有哪些網站值得用python爬蟲獲取很有價值的資料

^___^一個程式設計師的淘寶店：點選開啟連結，助你快速學習python技術的一臂之力，不喜歡看廣告的請忽略這條！ 0、IT桔子和36Kr在專欄文章中（http://zhuanlan.zhihu.com/p/20714713），抓取IT橘子和36Kr的各公司的投融資資料

利用python爬蟲技術動態爬取地理空間資料雲中的元資料（selenium）

python爬取地理空間資料雲selenium動態點選爬取的網址秀一下：爬取的資訊是什麼呢？這個資訊的爬取涉及到右邊按鈕的點選，這屬於動態爬取的範疇，需要用到selenium 好了，那麼開始寫程式碼吧首先匯入selenium from seleni

Python爬蟲 - 獲取美團美食資料

這兩天接觸了一下python爬蟲，根據網上的一些部落格寫了下面的程式碼來抓取美團網上的美食資料，記錄一下。 #from bs4 import BeautifulSoup #解析html或xml檔案的庫 import urllib.request import csv import re imp

Python爬蟲獲取文章的標題及你的部落格的閱讀量，評論量。所有資料寫入本地記事本。最後輸出你的總閱讀量！

Python爬蟲獲取文章的標題及你的部落格的閱讀量，評論量。所有資料寫入本地記事本。最後輸出你的總閱讀量！還可以進行篩選輸出！比如閱讀量大於1000，之類的！完整程式碼在最後。依據閱讀數量進行降序輸出！還有程式碼截圖（適用於不知道為啥出現錯誤的朋友）執行結果截圖，寫入後的記事本

資料視覺化三步走（一）：資料採集與儲存，利用python爬蟲框架scrapy爬取網路資料並存儲

前言最近在研究python爬蟲，突然想寫部落格了，那就寫點東西吧。給自己定個小目標，做一個完整的簡單的資料視覺化的小專案，把整個相關技術鏈串聯起來，目的就是為了能夠對這塊有個系統的認識，具體設計思路如下： 1. 利用python爬蟲框架scr

利用python爬蟲批量獲取代理IP並驗證可用性

# -*- coding: utf-8 -*- from bs4 import BeautifulSoup import urllib2 import httplib import threading import sys reload(sys) sys.setdefaultencoding('utf-8'

如何利用Python爬蟲從網頁上批量獲取想要的資訊？

稍微說一下背景，當時我想研究蛋白質與小分子的複合物在空間三維結構上的一些規律，首先得有資料啊，資料從哪裡來？就是從一個涵蓋所有已經解析三維結構的蛋白質-小分子複合物的資料庫裡面下載。這時候，手動一個個去下顯然是不可取的，我們需要寫個指令碼，能從特定的網站選擇性得批量下載需

python 爬蟲獲取文件式網站資源（基於python 3.6）

codes 網頁大小 file sel dal 網頁代碼目錄多級目錄 import urllib.requestfrom bs4 import BeautifulSoupfrom urllib.parse import urljoinfrom Cat.findLink

python 爬蟲獲取文件式網站資源完整版（基於python 3.6）

sta 不支持 bytes ror 啟動 www des find parse <--------------------------------下載函數-----------------------------> import requestsimport t

利用Python爬蟲爬取淘寶商品做數據挖掘分析實戰篇，超詳細教程

實戰趨勢 fat sts AI top 名稱 2萬安裝模塊項目內容本案例選擇>> 商品類目：沙發；數量：共100頁 4400個商品；篩選條件：天貓、銷量從高到低、價格500元以上。項目目的 1. 對商品標題進行文本分析詞雲可視化 2.

python 爬蟲獲取世界杯比賽賽程

star odin csv文件 cal requests tex pre brush c-c #!/usr/bin/python # -*- coding:utf8 -*- import requests import re import os import tim

利用python爬蟲爬取圖片並且制作馬賽克拼圖

python爬蟲 splay ise 做事 c-c sea mage item -a 　　想在妹子生日送妹子一張用零食（或者食物類好看的圖片）拼成的馬賽克拼圖，因此探索了一番= =。　　首先需要一個軟件來制作馬賽克拼圖，這裏使用Foto-Mosaik-Edda（網上也有在

Python爬蟲實戰：股票資料定向爬蟲

功能簡介目標：獲取上交所和深交所所有股票的名稱和交易資訊。輸出：儲存到檔案中。技術路線： requests—bs4–re 語言：python3.5 說明網站選擇原則：股票資訊靜態存在於html頁面中，非js程式碼生成，沒有Robbts

Python爬蟲實習筆記 | Week3 資料爬取和正則再學習

2018/10/29 1.所思所想：雖然自己的考試在即，但工作上不能有半點馬虎，要認真努力，不辜負期望。中午和他們去吃飯，算是吃飯創新吧。下午爬了雞西的網站，還有一些欄位沒爬出來，正則用的不熟悉，此時終於露出端倪，心情不是很好。。明天上午把正則好好看看。 2.工作： [1].哈爾濱：html p

python爬蟲系統(4.4-資料儲存到mongodb資料庫中)

一、如果你對mongodb不太熟悉的可以參考二、將爬取的資料直接存入到mongodb資料庫中 1、在python中使用pymongo連線mongodb pip3 install pymongo 三、依然將之前爬取農產品產品資訊的資料存入mongodb中

python爬蟲系列(4.3-資料儲存到mysql資料庫中)

一、如果你對mysql資料庫還不太熟悉二、基本操作 1、在python中使用pymysql連線mysql 2、安裝包 pip3 install pymysql 3、定義一個建立資料庫的方法(或者手動、SQL語句建立資料庫) # 定義一個建立資料庫的函

利用Python自動傳送釘釘資料訊息

作為一個Python程式設計師，老闆每次在釘釘上問我要資料我都是用Python自動回覆的，順便設了個定時沒事問候一下老闆，哈哈美滋滋~ 用Python實現在釘釘自動發資料，老闆現在問我要資料我都是秒回！在這裡相信有許多想要學習python的小夥伴，還是要向大家推薦下！小編我整

用python批量獲取某路徑資料夾及子資料夾下的指定型別檔案，並按原資料夾結構批量儲存處理後的檔案

因為是把自己成功執行的整個程式碼按幾部分截取出來的，所以每一小節程式碼不一定能單獨執行，特此說明。 1.獲取某路徑資料夾及子資料夾下的指定pcm型別檔案的全部路徑 import os def eachfile(filepath): pathdi

利用python爬蟲獲取豆瓣讀書資料建立書單

0. 寫在前面

1. 前期準備

1.1 依賴工具

1.2 網頁分析

1.2.1 抓取站點

1.2.2 Robots協議

1.2.3 分析程式碼

2. 程式碼

2.1 獲取網頁

2.2 正則表示式

2.3 main

2.4 爬取結果

3. 總結

相關推薦