Python爬蟲之利用BeautifulSoup爬取豆瓣小說（三）——將小說信息寫入文件

阿新 • • 發佈：2017-09-03

設置 one 行為 blog 應該 += html uil rate

 1 #-*-coding:utf-8-*-
 2 import urllib2
 3 from bs4 import BeautifulSoup
 4 
 5 class dbxs:
 6 
 7     def __init__(self):
 8         self.pageIndex = 0
 9         self.enable = True
10         self.file = None
11         self.content = []
12         
13         
14     #獲取html頁面的內容
15     def getPage(self, pageIndex):
 
16         try:
17             #設置代理ip
18             enable_proxy = True
19             proxy_handler = urllib2.ProxyHandler({‘Http‘: ‘113.118.170.230:808‘})
20             null_proxy_handler = urllib2.ProxyHandler({})
21             if enable_proxy:
22                 opener = urllib2.build_opener(proxy_handler)
 
23             else:
24                 opener = urllib2.build_opener(null_proxy_handler)
25             urllib2.install_opener(opener)
26             #獲得頁面響應的內容
27             url = ‘https://www.douban.com/tag/%E5%B0%8F%E8%AF%B4/book‘ + "?start=" + str(pageIndex)
28             #設置請求頭部信息，模擬瀏覽器的行為
29             my_headers = {‘ 
User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; WOW64; rv:55.0)‘}
30             request =   urllib2.Request(url, headers = my_headers)
31             response = urllib2.urlopen(request)
32             return response.read()
33         except urllib2.URLError, e:
34             if hasattr(e, "code"):
35                 print e.code
36             if hasattr(e, "reason"):
37                 print e.reason
38                 return None
39 
40     #過濾查找這一頁的小說名字，信息和評分
41     def getContent(self, pageIndex, content):
42         pageCode = self.getPage(pageIndex)
43         soup = BeautifulSoup(pageCode, ‘html.parser‘)
44         #在獲得相應的內容中找出所有標簽為<dd>的內容（裏面包含了我們需要的小說信息）
45         contents = soup.find_all(‘dd‘)
46         
47         if contents:
48             for item in contents:
49                 title = item.find(class_ = ‘title‘).string.encode(‘utf-8‘)
50                 info = item.find(class_ = ‘desc‘).string.strip().encode(‘utf-8‘)
51                 rate = item.find(class_ = ‘rating_nums‘)
52                 #通過試驗，我們發現某一頁可能存在小說沒有評分，如果我們不判斷rate，那麽可能就出現報錯
53                 if rate:
54                     rates = rate.string.encode(‘utf-8‘)
55                     content.append([title, info, rates])
56                     
57                 else:
58                     content.append([title, info])
59         #如果頁面不包含<dd>標簽，我們應該停止
60         else:
61             print u"所有頁面已加載完"
62             self.enable = False
63 
64         return content
65         
66             
67 
68     #寫入文件
69     def writeData(self, content):
70         self.file = open("bdxs.txt", "w+")   #必須在for循環外面，不然每一次寫入都會覆蓋之前的數據
71         for item in content:
72             if len(item) == 3:
73                 self.file.write(item[0] + "\n")
74                 self.file.write(item[1] + "\n")
75                 self.file.write(u"評分:" + item[2] + "\n\n")
76             else:
77                 self.file.write(item[0] + "\n")
78                 self.file.write(item[1] + "\n")
79             self.file.write("========================================\n\n")
80 
81             
82     #創建一個開始方法
83     def start(self):
84         x = 1
85         while self.enable == True:
86             content = self.getContent(self.pageIndex, self.content)
87             if self.enable == True:
88                 print "正在寫入第%s頁..." %x
89             self.writeData(content)
90             self.pageIndex += 15
91             x += 1
92                       
93             
94 DBXS = dbxs()
95 DBXS.start()

這段代碼我還沒理解透徹，比如每一頁的小說信息寫入完成後，怎麽在後面加上第幾頁，後期我將繼續完善它。

設置 one 行為 blog 應該 += html uil rate 1 #-*-coding:utf-8-*- 2 import urllib2 3 from bs4 import BeautifulSoup 4 5 class dbxs: 6 7

Python爬蟲：Selenium+ BeautifulSoup 爬取JS渲染的動態內容（雪球網新聞）

爬取目標：下圖中紅色方框部分的文章內容。（需要點選每篇文章的連結才能獲得文章內容）注：該文章僅介紹爬蟲爬取新聞這一部分，爬蟲語言為Python。乍一看，爬蟲的實現思路很簡單：（2）通過第一步所獲得的各篇文章的URL，抓取文章內容。但是發現簡單使用urlli

Python爬蟲入門 | 7 分類爬取豆瓣電影，解決動態載入問題

比如我們今天的案例，豆瓣電影分類頁面。根本沒有什麼翻頁，需要點選“載入更多”新的電影資訊，前面的黑科技瞬間被秒…… 又比如知乎關注的人列表頁面：我複製了其中兩個人暱稱的 xpath： //*[@id="Popov

python爬蟲【例項】爬取豆瓣電影評分連結並圖示（）-問題如何爬取電影圖片（解決有程式碼）

這裡只有尾巴，來分析一下確定範圍：如何爬取圖片並下載？參考：http://blog.csdn.net/chaoren666/article/details/53488083----------------------------------------------------

scrapy框架爬取豆瓣讀書（1）

tin rap 豆瓣 pipe 網頁 xpath from lin tor 1.scrapy框架 Scrapy，Python開發的一個快速、高層次的屏幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的數據。Scrapy用途廣泛，可以用於數據挖掘、監測和自動化

Python爬蟲之Beautiful Soup解析庫的使用（五）

Python爬蟲之Beautiful Soup解析庫的使用 Beautiful Soup-介紹 Python第三方庫，用於從HTML或XML中提取資料官方：http://www.crummv.com/software/BeautifulSoup/ 安裝：pip install beautifulsoup4

Python爬蟲之利用正則表達式爬取內涵吧

file res start cnblogs all save nts quest ide 首先，我們來看一下，爬蟲前基本的知識點概括一. match()方法：這個方法會從字符串的開頭去匹配（也可以指定開始的位置），如果在開始沒有找到，立即返回None，匹配到一個結果

[Python/爬蟲]利用xpath爬取豆瓣電影top250

今天學習了一下xpath 感覺功能非常的強大，但是如果不太懂前端的小夥伴們可能比較吃力，建議看一下html的一些語法結構，程式碼如下： #!/usr/bin/env python import r

Python 利用 BeautifulSoup 爬取網站獲取新聞流

lxml odi creat times 對比文件中 lse win 危機 0. 引言　　介紹下 Python 用 Beautiful Soup 周期性爬取 xxx 網站獲取新聞流；圖 1 項目介紹 1. 開發環境　　Python：　　　　

爬蟲]利用xpath爬取豆瓣電影top250（轉）

今天學習了一下xpath 感覺功能非常的強大，但是如果不太懂前端的小夥伴們可能比較吃力，建議看一下html的一些語法結構，程式碼如下： #!/usr/bin/env python import re import requests import lxml.html url

爬蟲學習之11：爬取豆瓣電影TOP250並存入資料庫

本次實驗主要測試使用PyMySQL庫寫資料進MySQL，爬取資料使用XPATH和正則表示式，在很多場合可以用XPATH提取資料，但有些資料項在網頁中沒有明顯特徵，用正則表示式反而反而更輕鬆獲取資料。直接上程式碼：from lxml import etree impo

python爬蟲之利用scrapy框架抓取新浪天氣資料

scrapy中文官方文件：點選開啟連結Scrapy是Python開發的一個快速、高層次的螢幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的資料。Scrapy用途廣泛，可以用於資料探勘、監測和自動化測試，Scrapy吸引人的地方在於它是一個框架，任何人都可以根據

爬蟲實戰（一）——利用scrapy爬取豆瓣華語電影

爬蟲第一個專案是爬取豆瓣華語電影，後面將對這部分資料進行分析。本文也是發表於『運籌OR帷幄』微信公眾號的《用資料帶你瞭解電影行業—華語篇》的爬蟲介紹篇。 1. 爬取思路在觀察了豆瓣每個影片的連結地址後，寫下了主要思路：（1）在豆瓣電影的選片頁面，篩選所有華

爬蟲+詞雲：爬取豆瓣電影top100的導演制作圖雲

ray 爬取 open tex 下載頁面 down app zhong form 前段時間做了一個關於豆瓣電影的爬蟲，之後又寫了一個陳奕迅歌詞的詞雲制作，於是我想不如做一個關於豆瓣高分電影導演的詞雲試試，於是有了接下來這篇隨筆。首先，我需要知道豆瓣top100電影詳情頁面

Python爬蟲之多線程下載豆瓣Top250電影圖片

process current ocs code roc 輸出 wait div 允許爬蟲項目介紹 ??本次爬蟲項目將爬取豆瓣Top250電影的圖片，其網址為：https://movie.douban.com/top250，具體頁面如下圖所示： ??本次爬蟲項目將分別

Python爬蟲系列 - 初探：爬取旅遊評論

blank .text http fir win64 ati coo get stat Python爬蟲目前是基於requests包，下面是該包的文檔，查一些資料還是比較方便。 http://docs.python-requests.org/en/master/ 爬取某旅遊

python爬蟲——40行程式碼爬取「筆趣看」全部小說你都看了嗎？

需求分析 ”筆趣看“ 是一個盜版小說網站，這裡有各大知名小說網站的小說，更新速度略慢於正版網站。但是該網站只支援線上瀏覽，不支援小說下載，對於想要下載下來以防斷網或者網速不好時也能看的童鞋來說不太友好。因此，本次練習將爬取該網站所有小說。PS：本次練習僅為學習交流，請各位童鞋支援正版。爬取

Python爬蟲系列 - 初探：爬取新聞推送

http nec apple 下標 for pri Language span round Get發送內容格式 Get方式主要需要發送headers、url、cookies、params等部分的內容。 t = requests.get(url, headers = hea

Python爬蟲實例：爬取B站《工作細胞》短評——異步加載信息的爬取

localtime pre global web for short sco 網頁解析 save 《工作細胞》最近比較火，bilibili 上目前的短評已經有17000多條。先看分析下頁面右邊 li 標簽中的就是短評信息，一共20條。一般我們加載大量數據的時候，都

爬蟲之股票定向爬取

本次是股票定向爬取，從東方財富網上獲取所有股票程式碼，然後在百度股票網上開啟每個個股股票資訊，提取所要儲存的股票資訊。採取的技術路線是re+bs4+requests。 import requests from bs4 import BeautifulSoup import traceback

Python爬蟲之利用BeautifulSoup爬取豆瓣小說（三）——將小說信息寫入文件

相關推薦