蟲師帶你入門Chrome Headless，從此爬蟲0門檻！

阿新 • • 發佈：2019-01-03

爬蟲終結者 Chrome Headless

簡介

自從Google官方釋出了Chrome瀏覽器的無形態模式之後,PhantomJS 維護者 Vitaly Slobodin 隨即在郵件列表上宣佈辭職,可見該模式的影響力，那麼下面小編帶大家快速入門如何使用該技術實現資料抓取，可以說掌握這套技術能夠應對90%的網站,從此爬蟲0門檻。

安裝

Chrome Headless 配置

開啟chrome瀏覽器，位址列輸入chrome://version/,需要版本59.0以上
Mac配置如下(vim ~/.bashrc):

alias chrome="/Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome" 

alias chrome-canary="/Applications/Google\ Chrome\ Canary.app/Contents/MacOS/Google\ Chrome\ Canary"
alias chromium="/Applications/Chromium.app/Contents/MacOS/Chromium"
alias start_chrome_server="chrome --disable-gpu --remote-debugging-port=9222"

配置完成後記得$ source ~/.bashrc
在終端執行$ start_chrome_server,可以看到如下圖所示，且有一個新的瀏覽器開啟

:
ps. 如果按照上面沒有操作成功或者其他系統配置，可以看這裡

實戰

ps. 因為所有的操作都是模擬瀏覽器進行操作，所以執行前必須先開啟chrome headless:$ start_chrome_server

知乎自動化爬蟲

$ python run_zhihu.py

執行成功後可以看到知乎網站在不停的下滑重新整理，直到最後一頁。
結果:

法治線上自動翻頁爬蟲

$ python run_fazhizaixian.py

執行成功後可以看到頁面會自動翻頁且會在最後一頁停住，完全自動化。
結果:

豆瓣模擬登陸爬蟲

上面原始碼下載好了之後，在原始碼中填入自己的豆瓣賬號用於模擬登陸:
之後在根目錄執行

$ python run_douban.py

有些時候需要驗證碼，注意控制檯需要填寫code: 這裡按照自己看到的填就行:
成功的話，我們可以看到幾秒之後瀏覽器自動進入豆瓣電影頁面進行自動翻頁爬蟲了。
結果:

核心程式碼簡介

下載頁面

    def download_html(self, url=None, delay=1, tab=None, disable_css=False, close_tab=True):
        """
        返回一個頁面的html
        :param tab: 頁面物件,預設為空，自己會自動建立一個
        :param url: 傳入的url
        :param delay: 下載延遲
        :param disable_css: 是否禁止CSS
        :param close_tab: 每次爬完是否關閉tab
        :return:
        """
        try:
            if tab is None:
                tab = self.create_new_tab(url=url)
                self.start_tab(tab)
            tab.wait(timeout=delay)
            html = self.exec_js_cmd(tab, js_cmd.DOWNLOAD_HTML)
            if disable_css:
                self.disable_css(tab=tab)
            if html is not None:
                html = html["result"]["value"]
                if close_tab:
                    self.close_tab(tab)
                return html
        except Exception as e:
            print "download_html error:", e
            self.close_tab(tab)
            return None

該函式是整個框架的核心函式，爬蟲的核心也就是將瀏覽器上看到的使用者資訊抓取下來，其中我這裡只給出了一部分功能即delay(控制下載延遲),disable_css(下載時候是否需要css資源),close_tab(每次抓取後是否關閉網頁)，原始碼中還封裝了很多其他功能，讀者可以自行挖掘，理論上來說只要你能在瀏覽器上看到的東西基本都能抓下來，就是控制delay 這個引數就行。

總結

該技術通常用來獲取一些資料加密網站的方法，對一般的靜態網站抓取成本較高，因為在時間上相對來說慢一些，大家可以試著用該框架爬下淘寶，京東等網站，小編有測試過，也是沒什麼問題的,最後希望大家給我點個贊或者在專案中給個star!

相關資料

蟲師帶你入門Chrome Headless，從此爬蟲0門檻！

爬蟲終結者 Chrome Headless 簡介自從Google官方釋出了Chrome瀏覽器的無形態模式之後,PhantomJS 維護者 Vitaly Slobodin 隨即在郵件

從植物大戰殭屍開始一步一步帶你入門逆向工程，

逆向工程掃盲篇最近又來了一群對逆向工程感興趣的同學，我這裡帶領大家來一次逆向工程初體驗。在這裡我們會修改彈框的值修改植物大戰殭屍的陽光編譯並執行以下C程式使用的工具：Devcpp #include<windows.h> int main(){ MessageBox(0,&q

從AlexNet到MobileNet，帶你入門深度神經網絡

架構函數摘要：在2018年3月13日雲棲社區，來自哈爾濱工業大學的沈俊楠分享了典型模式-深度神經網絡入門。本文詳細介紹了關於深度神經網絡的發展歷程，並詳細介紹了各個階段模型的結構及特點。哈爾濱工業大學的沈俊楠分享了典型模式-深度神經網絡入門。本文詳細介紹了關於深度神經網絡的發展歷程，並詳細介紹了

不懂高性能的負載均衡設計？沒關系，架構師帶你飛

訪問速度便宜 webp gcj load lib 我們 gin 本質在軟件系統的架構設計中，對集群的負載均衡設計是作為高性能系統優化環節中必不可少的方案。負載均衡本質上是用於將用戶流量進行均衡減壓的，因此在互聯網的大流量項目中，其重要性不言而喻。一、什麽是負載均衡？

八年一線架構師,帶你0基礎入門大數據

軟件基礎入門 roc rom 培訓開發 ger 流程控制入門在職八年老司機帶你0基礎入門大數據 ,教你如何從小白變成行業精英 ,讓高薪變的簡單！孫老師太閣孫老師具備8年從業經驗，4年大數據經驗，4年培訓講師經驗，精通java python 和大數據生態圈，曾擔任清

還沒寫過爬蟲的小白點進來，一文帶你入門python爬蟲（小白福利）

入門準備工作需要準備的東西： Python、scrapy、一個IDE或者隨便什麼文字編輯工具。隨便建一個工作目錄，然後用命令列建立一個工程，工程名為miao，可以替換為你喜歡的名字。 scrapy startproject miao 隨後你會得到如下的一個由scrapy建立

12個最佳的響應式網頁設計教程，輕鬆帶你入門！

如何讓你的網站在其出現的任何裝置和螢幕尺寸上能夠完美的呈現？響應式設計完美的解決了這一難題，作為現在的網頁設計師都應該瞭解響應式網頁設計的原則。而對於剛步入網頁設計的新手設計師，如果你還不瞭解什麼是響應式設計？如何製作響應式頁面？這篇文章為大家提供了12個基礎的響應式網頁設計的教程，結尾還附上了個人

攜程系統架構師帶你手寫spring mvc，解讀spring核心原始碼！

講師簡介： James老師系統架構師、專案經理十餘年Java經驗，曾就職於攜程、人人網等一線網際網路公司，專注於java領域，精通軟體架構設計，對於高併發、高效能服務有深刻的見解，在服務化基礎架構和微服務技術有大量的建設和設計經驗。課程內容： 1.為什麼讀Spr

一個月帶你入門Python爬蟲，輕鬆爬取大規模資料

Python爬蟲為什麼受歡迎如果你仔細觀察，就不難發現，懂爬蟲、學習爬蟲的人越來越多，一方面，網

不懂高效能的負載均衡設計？沒關係，架構師帶你飛

在軟體系統的架構設計中，對叢集的負載均衡設計是作為高效能系統優化環節中必不可少的方案。負載均衡本

從AlexNet到MobileNet，帶你入門深度神經網路

哈爾濱工業大學的沈俊楠分享了典型模式-深度神經網路入門。本文詳細介紹了關於深度神經網路的發展歷程，並詳細介紹了各個階段模型的結構及特點。直播回顧請點選以下是精彩視訊內容整理：問題引出學習知識從問題引出入手是一個很好的方法，所以本文將可以圍繞下面三個問題來展開：1.DNN和CNN有什麼不同？有什麼關係？如何定義

詳細解說遞迴與分治演算法，一文帶你入門到熟悉

全文共 2114 字，閱讀文字大概需要 3.8 分鐘。前言這幾天看到交流有人群裡說有關遞迴的棧溢問題，剛好小編又看到有關遞迴的東西，給大家闡述一下遞迴和分治的內容，讓各位更加理解有關前賢的各種化整為零。正文很多人認為遞迴是語言中最為難以理解的內容之一，其

資深架構師帶你詳細瞭解，Spring之IoC容器

一、 IoC概述 IoC（Inverse of Control，控制反轉）是Spring容

一文帶你入門Java Stream流，太強了

兩個星期以前，就有讀者強烈要求我寫一篇 Java Stream 流的文章，我說市面上不是已經有很多了嗎，結果你猜他怎麼說：“就想看你寫的啊！”你看你看，多麼蒼白的喜歡啊。那就“勉為其難”寫一篇吧，嘻嘻。單從“Stream”這個單詞上來看，它似乎和 java.io 包下的 InputStream 和 Ou

【萬字長文】別再報班了，一篇文章帶你入門Python

本文始發於個人公眾號：**TechFlow**，原創不易，求個關注最近有許多小夥伴後臺聯絡我，說目前想要學習Python，但是沒有一份很好的資料入門。一方面的確現在市面上Python的資料過多，導致新手會不知如何選擇，另一個問題很多資料內容也很雜，從1+1到深度學習都包括，純粹關注Python本身語法

手把手帶你入門numpy，從此資料處理不再慌【四】

本文始發於個人公眾號：**TechFlow**，原創不易，求個關注今天是numpy專題的第四篇文章，numpy中的陣列重塑與三元表示式。首先我們來看陣列重塑，所謂的重塑本質上就是改變陣列的shape。在保證陣列當中所有元素不變的前提下，變更陣列形狀的操作。比如常用的操作主要有兩個，一個是轉置，另外一

23張圖，帶你入門推薦系統

做廣告業務1年多時間了，但是平時的工作主要和廣告工程有關，核心的廣告演算法由 AI 部門支援，對我們而言可以說是「黑盒般」的存在，只需要對訓練好的模型進行呼叫即可。近期，我打算系統性地學習下廣告中的搜尋和推薦演算法，當然更多是從工程的視角去弄清楚：演算法的基本原理、以及面對線上海量資料時演算法是如何解

深入淺出！阿里P7架構師帶你分析ArrayList集合原始碼，建議是先收藏再看！

# ArrayList簡介 ArrayList 是 Java 集合框架中比較常用的資料結構了。ArrayList是可以**動態增長和縮減的索引序列**，內部封裝了一個**動態再分配的Object[]陣列** ![](https://upload-images.jianshu.io/upload_image

一篇文章帶你入門Linux——馬哥Linux基礎學習筆記

更改密碼自帶 ctime 詳細信息內嵌桌面環境地址定界格式符 p s 1.課程體系：中級：初級：系統基礎中級：系統管理、服務安全及服務管理、Shell腳本；高級： MySQL數據庫； cache & stor

阿裏P8高級架構師帶你領略阿裏巴巴微服務架構——最後有驚喜哦

Java 程序員編程Dubbo微服務框架的核心功能啟動時檢查 ?Dubbo 缺省會在啟動時檢查依賴的服務是否可用，不可用時會拋出異常，阻止 Spring 初始化完成，以便上線時，能及早發現問題，默認 check="true" 集群容錯 failover 失敗自動切換，當出現失敗

蟲師帶你入門Chrome Headless，從此爬蟲0門檻！

爬蟲終結者 Chrome Headless

簡介

安裝

Chrome Headless 配置

相關庫安裝

實戰

知乎自動化爬蟲

法治線上自動翻頁爬蟲

豆瓣模擬登陸爬蟲

核心程式碼簡介

總結

相關資料

相關推薦