基本爬蟲架構實現的豆瓣爬蟲（三）: HTML 解析器

阿新 • • 發佈：2018-12-19

一、實現原理

HTML 解析器使用 Xpath 規則進行 HTML 解析，需要解析的部分主要有書名、評分和評分人數。

二、程式碼如下

 1 from lxml.html import etree
 2 import re
 3 
 4 class HtmlParser:
 5     def parser(self, page_url, html_text):
 6         """
 7         解析頁面新的 url 連結和資料
 8         :param page_url: url
 9         :param html_text: 頁面內容
 
10         :return: tuple / None
11         """
12         if not page_url and not html_text:
13             return None
14         new_urls = self._get_new_urls(page_url, html_text)
15         new_data = self._get_new_data(html_text)
16 
17         return new_urls, new_data
18 
19     def _get_new_urls(self, page_url, html_text):
 
20         """
21         返回解析後的 url 集合
22         :param page_url: url
23         :param html_text: 頁面內容
24         :return: set
25         """
26         new_urls = set()
27         links = re.compile(r'\?start=\d+').findall(html_text)
28         for link in links:
29             new_urls.add(page_url.split(' 
?')[0] + link)
30         return new_urls
31 
32     def _get_new_data(self, html_text):
33         """
34         返回解析後的資料列表
35         :param html_text: 頁面內容
36         :return: list
37         """
38         datas = []
39         for html in etree.HTML(html_text).xpath('//ol[@class="grid_view"]/li'):
40             name = html.xpath('./div/div[@class="info"]/div[@class="hd"]/a/span[1]/text()')[0]
41             score = html.xpath('./div/div[@class="info"]/div[@class="bd"]/div[@class="star"]/span[2]/text()')[0]
42             person_num = html.xpath('./div/div[@class="info"]/div[@class="bd"]/div[@class="star"]/span[4]/text()')[0].strip('人評價')
43             datas.append([name, score, person_num])
44         return datas

基本爬蟲架構實現的豆瓣爬蟲（三）: HTML 解析器

一、實現原理 HTML 解析器使用 Xpath 規則進行 HTML 解析，需要解析的部分主要有書名、評分和評分人數。二、程式碼如下 1 from lxml.html import etree 2 import re 3 4 class HtmlParser:

小白學 Python 爬蟲（35）：爬蟲框架 Scrapy 入門基礎（三） Selector 選擇器

人生苦短，我用 Python 前文傳送門：小白學 Python 爬蟲（1）：開篇小白學 Python 爬蟲（2）：前置準備（一）基本類庫的安裝小白學 Python 爬蟲（3）：前置準備（二）Linux基礎入門小白學 Python 爬蟲（4）：前置準備（三）Docker基礎入門小白學 Pyth

Python爬蟲之利用BeautifulSoup爬取豆瓣小說（三）——將小說信息寫入文件

設置 one 行為 blog 應該 += html uil rate 1 #-*-coding:utf-8-*- 2 import urllib2 3 from bs4 import BeautifulSoup 4 5 class dbxs: 6 7

python爬蟲從入門到放棄（三）- Urllib庫的基本使用方法1

Urllib 是Python自帶的標準庫，無需安裝，直接可以用。提供瞭如下功能：網頁請求響應獲取代理和cookie設定異常處理URL解析爬蟲所需要的功能，基本上在urllib中都能找到，學習這個標準庫，可以更加深入的理解後面更加便利的requests庫。-----------

爬蟲庫之BeautifulSoup學習（三）

子節點 rom lac repr 文檔 strong 爬蟲 time contents 遍歷文檔樹：　　1、查找子節點　　.contents　　　　tag的.content屬性可以將tag的子節點以列表的方式輸出。　　print soup.body.cont

爬蟲之字型反爬（三）汽車之家

今天為大家帶來的是字型反爬的另一個案例，汽車之家。與之前不同的是，這裡是對漢字的處理。具體來看下面的分析與程式碼。首先參考的網站：https://club.autohome.com.cn/bbs/thread/1f05b4da4448439b/76044817-1.html#%23%23

架構之路：nginx與IIS服務器搭建集群實現負載均衡（三）

blog 存儲 bsp 知識 exe ESS 步驟校驗 con 參考網址：https://blog.csdn.net/zhanghan18333611647/article/details/50811980 【前言】在《架構之路：nginx與IIS服務器搭建集群

Java爬蟲入門簡介（三） —— Jsoup解析HTML頁面

上一篇部落格我們已經介紹瞭如何使用HttpClient模擬客戶端請求頁面了。這一篇部落格我們將描述如何解析獲取到的頁面內容。上一節我們獲取了 http://www.datalearner.com/blog_list 頁面的HTML原始碼，但是這些原始碼是提供給瀏覽器解析用的，

移動端爬蟲--多臺裝置自動化（三）

文集移動端爬蟲多臺裝置自動化思路啟動多個appium service，且每個server對應一個裝置 appium -p 4723 -U udid a

容器+AOP實現動態部署（三）

集合 tar details class 處理 tid ret con sta 上節咱們談到容器的基本特性，這次繼續說容器怎樣與AOP進行結合。增強咱們的對象。為對象加入額外的方法。咱們下面方圖為說明業務對象通過busi

Collection的實現——學生選課（三）

最大 es2017 語言位置一個數超過類型 img .cn 通過addAll方法往list對象添加課程: Course []course={new Course("3","離散數學"),new Course("4","匯編語言")};

服務器端編程心得（三）—— 一個服務器程序的架構介紹

工具對象管理 length 客戶端 != static turn lte ron 本文將介紹我曾經做過的一個項目的服務器架構和服務器編程的一些重要細節。一、程序運行環境操作系統：centos 7.0 編譯器：gcc/g++ 4.8.3 cmake 2.8.11

關於Unity實現AR功能（三）AR手機截圖

datetime replace ext adp screen tco 文件 unity directory 1 /************************************************* 2 * 項目名稱：AR截圖 3 * 腳本創建人

【筆記】ARM架構和ARM晶片（三）

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

linux基本服務系列之智慧DNS（三）

前言上一期講了利用bind+mysql的結合，打造一個數據庫管理的一個DNS系統，從而能減少運維的維護量；這期再講講增加dns遠端管理的功能和外部解析能力，可以進一步舒服的維護DNS系統。 rndc遠端控制服務 1、在被管理的伺服器上生成金鑰 # cd /var/named/chroo

windows下使用net-snmp實現agent擴充套件（三）

時間隔得太長了，我都快忘了什麼是snmp了，知識啊知識，很容易在不用的時候忘卻，也可能是自己腦袋不好使了吧？翻了翻程式碼，趕緊總結下，不然真不會了…… 在上篇部落格中，實現了get/set一個字串型變數，現在來實現對多個字串變數的get/set。假設要實現獲取CPU利用率、

動手實現 React-redux（三） Provider

react-redux.js: import React, { Component } from 'react' import PropTypes from 'prop-types' export

Spring Websocket+SockJS+STOMP 實現即時通訊（三）—— ChannelInterceptor與ExecutorChannelInterceptor

ChannelInterceptor： Message被髮送到執行緒池，在傳送動作執行前（後）攔截，發生在當前執行緒。 ExecutorChannelInterceptor： Message被髮送到執行緒池後，線上程池持有的新執行緒中，在Message

Java實現插入排序（三）

原理：每一步將一個待排序的記錄，插入到前面已經排好序的有序序列中去，直到插完所有元素為止。思想：想必你肯定打過撲克牌吧，在一張一張揭牌的時候，是不是每次揭一張牌將其插入到其他已經有序的牌中的適當位置，如果你沒有這個經歷，趕緊約一波小夥伴，鬥一把。與選擇排序一樣，把要排序的

Java架構師之旅（三）

夜光序言：最痛苦的是，消失了的東西，它就永遠的不見了，永遠都不會再回來，卻偏還要留下一根細而尖的針，一直插在你心頭，一直拔不去，它想讓你疼，你就得疼正文：JAVATomcat企業級學習搞清楚tomcat架構/ 具體的處理流程~~

基本爬蟲架構實現的豆瓣爬蟲（三）: HTML 解析器

相關推薦