【Python爬蟲】入門級爬蟲案例，20行程式碼爬取網站圖片（附原始碼）

阿新 • • 發佈：2021-10-16

知識點

爬蟲的步驟
requests
parsel
xpath資料解析

爬蟲四個步驟:

1.獲取網頁地址 (目標地址)
2.傳送請求
3.資料解析
4.儲存本地

【付費VIP完整版】只要看了就能學會的教程，80集Python基礎入門視訊教學

分析網站

目標網址：https://hdqwalls.com/

網站是靜態資料，那麼只要找到它的規律，以及url地址就行

對於本篇文章有疑問的同學可以加【資料白嫖、解答交流群：1039649593】

程式碼實現

匯入模組

import requests
import parsel

請求資料

url =f' 
https://hdqwalls.com/latest-wallpapers/page/1'
# url = 'https://hdqwalls.com'
# 請求頭  偽裝  爬蟲:偽裝成客戶端向伺服器傳送資料請求
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36'
}

requ = requests.get(url=url, headers=headers).text

資料解析

sel = parsel.Selector(requ)  # <Selector xpath=None data='<html lang="en">\n<head>\n<script src="...'>
pic_html = sel.xpath('//body/div/div[3]/div/a[1]/@href').getall()
for html in pic_html:
    pic_html = 'https://hdqwalls.com' + html
    requ2 = requests.get(url=pic_html, headers=headers).text
    sel2  
= parsel.Selector(requ2)
    title = sel2.xpath('//body/header/div/div/h1/text()').get().strip()
    href = sel2.xpath('//body/div/div[2]/div/div/div/a/@href').get()
    # 二進位制請求
    requ3 = requests.get(url=href, headers=headers).content

儲存資料

with open('桌布\\' + title + '.jpg', mode='wb')as fp:
    fp.write(requ3)
    print(title, '下載完成')

新增翻頁後的完整程式碼

import requests
import parsel


for page in range(1,6):   # 包頭不包尾
    url =f'https://hdqwalls.com/latest-wallpapers/page/{page}'
    # url = 'https://hdqwalls.com'
    # 請求頭  偽裝  爬蟲:偽裝成客戶端向伺服器傳送資料請求
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36'
    }

    requ = requests.get(url=url, headers=headers).text  # <Response [200]> 資料請求成功
    sel = parsel.Selector(requ)  # <Selector xpath=None data='<html lang="en">\n<head>\n<script src="...'>
    pic_html = sel.xpath('//body/div/div[3]/div/a[1]/@href').getall()
    for html in pic_html:
        pic_html = 'https://hdqwalls.com' + html
        requ2 = requests.get(url=pic_html, headers=headers).text
        sel2 = parsel.Selector(requ2)
        title = sel2.xpath('//body/header/div/div/h1/text()').get().strip()
        href = sel2.xpath('//body/div/div[2]/div/div/div/a/@href').get()
        # 二進位制請求
        requ3 = requests.get(url=href, headers=headers).content
        with open('桌布\\' + title + '.jpg', mode='wb')as fp:
            fp.write(requ3)
            print(title, '下載完成')
    print(f'----------------------第{page}頁下載完成----------------------')

執行程式碼

【Python爬蟲】入門級爬蟲案例，20行程式碼爬取網站圖片（附原始碼）

知識點爬蟲的步驟 requests parsel xpath資料解析爬蟲四個步驟: 1.獲取網頁地址 (目標地址)2.傳送請求3.資料解析4.儲存本地

爬蟲爬取網頁圖片（分頁）

爬蟲爬取網頁圖片（分頁）不分頁原始碼： import requests import re url = \'https://www.qiushibaike.com/imgrank/\'

【報告分享】京東物流：2020年直播電商供應鏈研究報告（附下載）

今天給大家分享的是京東物流：2020年直播電商供應鏈研究報告京東物流：2020年直播電商供應鏈研究報告

【報告分享】 Fastdata：2020年中國網際網路醫美行業發展分析報告（附下載）

今天給大家分享的是Fastdata：2020年中國網際網路醫美行業發展分析報告 Fastdata：2020年中國網際網路醫美行業發展分析報告

python----爬取動物圖片（re模組）

爬蟲所用網址：https://www.h128.com/list/animal/0/0/1/4/t/1.html 共13頁免費圖片，就是網址的最後數字從1變化到13了

Python爬蟲入門練手案例，爬取某乎問答數（附原始碼）

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

【Python爬蟲】尺度太大了！爬一個專門看小姐姐的網站，寫一段緊張刺激的程式碼（附原始碼）

前言今天我們通過Python爬取小姐姐圖片網站上的美圖，零基礎學會通用爬蟲，當然我們還可以實現多執行緒爬蟲，加快爬蟲速度

【Python爬蟲】15行程式碼教你爬B站視訊彈幕，詞雲圖展示資料（附原始碼）

知識點爬蟲基本流程正則 requests >>> pip install requests jieba >>> pip install jieba

【Python爬蟲】太刺激了！本來只想爬個視訊的，誰知自己淪陷進去了（附原始碼）

知識點爬蟲基本流程 re正則表示式簡單使用 requests json資料解析方法視訊資料儲存

【Python案例】基於Pygame黑白棋遊戲（附原始碼）

有沒有小火伴是特別喜歡玩五子棋的，我記得我初中是特別喜歡的。於是，我今天就用Python給大家寫了一個黑白棋遊戲。程式碼放在下面了。

Python爬蟲多執行緒：2.6G、171個視訊，只用了88秒，你可以做到嗎？（附原始碼）

前言本文的文字及圖片過濾網路，可以學習，交流使用，不具有任何商業用途，如有問題請及時聯絡我們以作處理。

Python爬蟲，爬取網站圖片，詳細解釋（看完就會）

Xpath 解析圖片專案 # 指定url url = \'http://pic.netbian.com/4kyingshi/\' # UA偽裝 headers = { \'User-Agent\': \'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) \