selenium+谷歌無頭瀏覽器爬取網易新聞國內板塊

阿新 • • 發佈：2019-04-22

quest alt 新聞列表 body lac windows text 分享 encoding

網頁分析

首先來看下要爬取的網站的頁面

技術分享圖片

查看網頁源代碼：你會發現它是由js動態加載顯示的

所以采用selenium+谷歌無頭瀏覽器來爬取它

1 加載網站，並拖動到底，發現其還有個加載更多

技術分享圖片

2 模擬點擊它，然後再次拖動到底，，就可以加載完整個頁面

技術分享圖片

示例代碼

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from time import sleep
 
from lxml import etree
import os
import requests

# 使用谷歌無頭瀏覽器來加載動態js
def main():
    # 創建一個無頭瀏覽器對象
    chrome_options = Options()
    # 設置它為無框模式
    chrome_options.add_argument(‘--headless‘)
    # 如果在windows上運行需要加代碼
    chrome_options.add_argument(‘--disable-gpu‘)
    browser = webdriver.Chrome(chrome_options=chrome_options)
     
# 設置一個10秒的隱式等待
    browser.implicitly_wait(10)
    browser.get(url)
    sleep(1)
    # 翻到頁底
    browser.execute_script(‘window.scrollTo(0,document.body.scrollHeight)‘)
    # 點擊加載更多
    browser.find_element(By.CSS_SELECTOR, ‘.load_more_btn‘).click()
    sleep(1)
    # 再次翻頁到底
    browser.execute_script(‘ 
window.scrollTo(0,document.body.scrollHeight)‘)
    # 拿到頁面源代碼
    source = browser.page_source
    browser.quit()
    with open(‘xinwen.html‘, ‘w‘, encoding=‘utf-8‘) as f:
        f.write(source)
        parse_page(source)

# 對新聞列表頁面進行解析
def parse_page(html):
    # 創建etree對象
    tree = etree.HTML(html)
    new_lst = tree.xpath(‘//div[@class="ndi_main"]/div‘)
    for one_new in new_lst:
        title = one_new.xpath(‘.//div[@class="news_title"]/h3/a/text()‘)[0]
        link = one_new.xpath(‘.//div[@class="news_title"]/h3/a/@href‘)[0]
        write_in(title, link)

# 將其寫入到文件
def write_in(title, link):
    print(‘開始寫入篇新聞{}‘.format(title))
    response = requests.get(url=link, headers=headers)
    tree = etree.HTML(response.text)
    content_lst = tree.xpath(‘//div[@class="post_text"]//p‘)
    title = title.replace(‘?‘, ‘‘)
    with open(‘new/‘ + title + ‘.txt‘, ‘a+‘, encoding=‘utf-8‘) as f:
        for one_content in content_lst:
            if one_content.text:
                    con = one_content.text.strip()
                    f.write(con + ‘\n‘)


if __name__ == ‘__main__‘:
    url = ‘https://news.163.com/domestic/‘
    headers = {"User-Agent": ‘Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0‘}
    if not os.path.exists(‘new‘):
        os.mkdir(‘new‘)
    main()

得到結果：

技術分享圖片

隨意打開一個txt:

技術分享圖片

總結：

1 其實主要的工作還是模擬瀏覽器來進行操作。

2 處理動態的js其實還有其他辦法。

3 爬蟲的方法有好多種，主要還是選擇適合自己的。

4 自己的代碼寫的太爛了。

selenium+谷歌無頭瀏覽器爬取網易新聞國內板塊

quest alt 新聞列表 body lac windows text 分享 encoding 網頁分析首先來看下要爬取的網站的頁面查看網頁源代碼：你會發現它是由js動態加載顯示的所以采用selenium+谷歌無頭瀏覽器來爬取它 1 加載網站，並拖動到

selenium設定谷歌無頭瀏覽器

當然你得先下載谷歌驅動chromedriver.exe，安裝selenium from selenium import webdriver from selenium.webdriver.chrome.options import Options chrome_options = O

爬蟲之圖片懶加載, selenium , phantomJs, 谷歌無頭瀏覽器

ext htm ora cep eight html_ all strong 自動化一.圖片懶加載什麽是圖片懶加載？案例分析：抓取站長素材http://sc.chinaz.com/中的圖片數據 #!/usr/bin/env python # -*-

python爬取網易雲音樂歌單音樂

string attrs default textarea bsp color read contents dom 在網易雲音樂中第一頁歌單的url：http://music.163.com/#/discover/playlist/ 依次第二頁：http://music.1

我用Python爬取網易雲音樂上的Hip-hop歌單，分析rapper如何押韻

line gone 謠言大致 -i 態度大眾其中當前緣起《中國有嘻哈》這個節目在這個夏天吸引了無數的目光，也讓嘻哈走進了大眾的視野。作為我今年看的唯一一個綜藝節目，它對我的影響也蠻大。這個夏天，我基本都在杭州度過，在上下班的taxi上，我幾乎都在刷這個節目，最後

java實現爬蟲，爬取網易歌單資訊

之前一直對爬蟲很好奇，覺得它很神祕，而我有個朋友是做爬蟲的，最近有空就向他學習了一下，並試著寫了個小程式。首先是獲得httpclient物件及httpresponse物件，此兩者是用於傳送請求及接受資料。 CloseableHttpClient httpClient

【Java爬蟲學習】WebMagic框架爬蟲學習實戰一：爬取網易雲歌單資訊，並存入mysql中

最近，需要使用Java進行爬蟲編寫，就去學了Java的爬蟲。因為之前學習了Scrapy框架，所以學Java的爬蟲使用了WebMagic框架，這個框架是基於Scrapy框架開發的。大家有興趣可以去看看操作文件：這個框架是國人開發的，所以說明文件都是中文，簡單易懂。

python爬取網易雲歌單

背景這學期報了一門海量資料處理，在資料處理前需要爬取一些內容。所以做了一個小練習，爬取網易雲的歌單。其中包括歌單名稱，播放量和url地址。網易雲還是具有一些反爬措施的，這裡主要說以下幾個方面以及我的應對措施。無法直接訪問我沒有實踐過直接訪問網易雲音樂

運用scrapy框架通過splash無頭瀏覽器爬取之settings檔案配置

1. 修改settings.py，配置SPLASH_URL。在這裡我們的Splash是在本地執行的，所以可以直接配置本地的地址： SPLASH_URL = 'http://localhost:8050' 如果Splash是在遠端伺服器執行的，那此處就應該配置

爬取網易雲音樂所有歌單資訊

可以結合下一篇文章實現歌曲下載 python 爬蟲下載網易歌單歌曲使用 python + requests + lxml + selenium 使用 requests 發起請求，獲取到所有分類的 url 使用 selenium 傳送請求取到

Python + Selenium 爬取網易雲課堂課時標題及時長

Python + Selenium 爬取網易雲課堂課時標題及時長轉載請註明出處：https://blog.csdn.net/jpch89/article/details/84142555 文章目錄 Python + Selenium 爬取網易雲課堂課時標

Python爬取網易雲音樂歌單內所有歌曲

一、目標：下載網易雲音樂熱門歌單二、用到的模組： requests，multiprocessing，re。三、步驟：（1）頁面分析：首先開啟網易雲音樂，選擇熱門歌單，可以看到以下歌單列表，然後開啟開發者工具本人對於Python學習建立了一個小小的學習圈子，為

爬取網易雲聽歌排行榜歌單制作雲詞

proc ges ase params 網頁 web api .post 想要最近又到了一年一度的年底總結了，網易雲音樂如此退出了年度歌單，又一次被刷朋友圈了。作為程序員，就好奇的想驗證下結論準不準，隨便回顧下爬蟲的操作。首先，打開網頁版網易雲音樂，登錄成功後，進入自己或

【python爬蟲自學筆記】-----爬取網易雲歌單中歌曲歌詞

工具：python3.6 ，pycharm 開始對網頁的內容進行爬取的時候，使用requests獲得響應，只傳url，但是沒有獲得響應，使用urllib新增請求頭部，並對response的內容使用utf-8進行解碼，使用BeautifulSoup轉換為html物件，

爬取網易熱評做成網易雲熱門截圖形式（給自己看的很亂有待更改）

lac post 更改 with con requests true ext2 .post 1 import requests,json,os,datetime,math,re 2 from PIL import Image,ImageDraw,ImageFont

爬取網易熱評做成網易雲熱門截圖形式（給自己看的很亂有待更改+）

json roman reply 熱門 req fan sta strftime ram # coding: utf-8 import requests, json, os, time, math, re from PIL import Image, Image

爬取網易雲音樂評論並使用詞雲展示

referer top readlines target ner ads 詞雲 pos 參考最近聽到一首很喜歡的歌，許薇的《我以為》，評論也很有趣，遂有想爬取該歌曲下的所有評論並用詞雲工具展示。我們使用chrome開發者工具，發現歌曲的評論都隱藏在以 R_S

爬取網易雲音樂(包括歌詞和評論)

輸入 random 字節 sim main dal 需要 ssi wow # http://music.163.com/discover/playlist/?order=hot&cat=%E5%85%A8%E9%83%A8&limit=35&off

如何用Python網絡爬蟲爬取網易雲音樂歌曲

今天 http 分享圖片分享圖片分分鐘參考 down 技術今天小編帶大家一起來利用Python爬取網易雲音樂，分分鐘將網站上的音樂down到本地。跟著小編運行過代碼的筒子們將網易雲歌詞抓取下來已經不再話下了，在抓取歌詞的時候在函數中傳入了歌手ID和歌曲名兩個參數

如何用Python網絡爬蟲爬取網易雲音樂歌詞

網易雲歌詞 Python網絡爬蟲網絡爬蟲前幾天小編給大家分享了數據可視化分析，在文尾提及了網易雲音樂歌詞爬取，今天小編給大家分享網易雲音樂歌詞爬取方法。本文的總體思路如下：找到正確的URL，獲取源碼；利用bs4解析源碼，獲取歌曲名和歌曲ID；調用網易雲歌曲API，獲取歌詞；將歌詞寫入

selenium+谷歌無頭瀏覽器爬取網易新聞國內板塊

網頁分析

示例代碼

總結：

相關推薦