正則應用--爬取天堂圖片網圖片（普通版本，函式版本，類版本）

阿新 • • 發佈：2019-01-29

第一部分：普通版本

一.os包的用法

先引入import os

# 如果資料夾不存在，建立資料夾
    if not os.path.exists(title):
        # 建立資料夾
        os.makedirs(title)

二.用urlopen發起請求
發起請求，接收響應

response = request.urlopen(req)

將返回的位元組資料轉換為str資料

html = response.read().decode('utf-8')

三.request.urlretrieve直接根據連結，檔名稱，下載圖片

 request.urlretrieve(src, title + '/' + name)

完整程式碼：

# -*- coding:utf-8 -*-
# 網路請求包
from urllib import request, parse
# 正則
import re
import os

# 準備url地址
url = 'http://www.ivsky.com/tupian/ziranfengguang/'
# 構建請求物件
req = request.Request(url=url, headers={
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:53.0) Gecko/20100101 Firefox/53.0'
})
# 發起請求，接收響應
response = request.urlopen(req)
# 將返回的位元組資料 轉換為str資料
html = response.read().decode('utf-8')
# print(html)

# 準備正則
pattern = re.compile('div class="il_img.*?<a href="(.*?)" title="(.*?)"')
# findall()函式 查詢所有符合正則的資料
# 返回存放分組元組資訊的列表
res = re.findall(pattern, html)
print(res)
# for 迴圈遍歷列表，取出每一個圖片分類的連結及標題
for info in res:
    link = info[0]
    title = info[1]
    # 如果資料夾不存在，建立資料夾
    if not os.path.exists(title):
        # 建立資料夾
        os.makedirs(title)
    # 拼接完整的詳情連結
    detail_url = 'http://www.ivsky.com' + link
    # 發起請求
    response = request.urlopen(detail_url)
    # 將資料轉換為字串
    detail_html = response.read().decode('utf-8')
    # 準備正則
    det_pat = re.compile('<div class="il_img.*?<img src="(.*?)"')
    # findall()
    detail_res = re.findall(det_pat, detail_html)
    # print(detail_res)
    for src in detail_res:
        name = src.split('/')[-1]
        print('圖片名稱：{} 圖片連結：{}'.format(name, src))
        # 直接根據連結，檔名稱，下載圖片
        request.urlretrieve(src, title + '/' + name)

執行結果：

第二部分：函式版本

完整程式碼：

# -*- coding:utf-8 -*-
# 網路請求包
from urllib import request, parse
# 正則
import re
import os


# 傳送請求接收響應資料
def get_html(url):
    """
        根據url地址傳送請求，接收響應資料，返回響應資料
    :param url:  請求地址
    :return:    str型別的html原始碼
    """
    # 構建request物件
    req = request.Request(
        url=url,
        headers={
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:53.0) Gecko/20100101 Firefox/53.0'
        }
    )
    # 發起請求 接收響應
    response = request.urlopen(req)
    # 轉換資料
    html = response.read().decode('utf-8')
    # 返回html原始碼
    return html


# 根據正則提取詳情url和分類標題
def get_detail(html):
    """
        根據正則提取詳情url和分類標題
    :param html: 網頁原始碼
    :return:
    """
    # 1.準備正則
    pattern = re.compile('div class="il_img.*?<a href="(.*?)" title="(.*?)"')
    # 2.提取資料
    res = re.findall(pattern, html)
    # for 迴圈遍歷
    for info in res:
        link = info[0]
        title = info[1]
        path = 'images/' + title
        if not os.path.exists(path):
            os.makedirs(path)
        # 拼接詳情url地址
        detail_url = "http://www.ivsky.com" + link
        # 執行獲取圖片src/下載圖片的函式
        get_img_src(detail_url, path)


# 根據正則提取圖片地址,下載圖片
def get_img_src(url, path):
    # 獲取詳情頁的html
    html = get_html(url)
    pattern = re.compile('<div class="il_img.*?<img src="(.*?)"')
    res = re.findall(pattern, html)
    # 分割圖片名稱
    for src in res:
        print(src)
        name = src.split('/')[-1]
        # 下載圖片
        request.urlretrieve(src, path + '/' + name)


# 爬蟲的主函式
def main():
    url = "http://www.ivsky.com/tupian/ziranfengguang/"
    html = get_html(url)
    get_detail(html)


# 是否在當前檔案直接執行
if __name__ == '__main__':
    main()

執行結果：

第三部分：類版本

完整程式碼

# -*- coding:utf-8 -*-
# 網路請求包
from urllib import request, parse
# 正則
import re
import os


# 風景爬蟲類
class IvskySpider(object):

    def __init__(self):
        # 爬蟲的初始地址
        self.url = "http://www.ivsky.com/tupian/ziranfengguang/"
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:53.0) Gecko/20100101 Firefox/53.0'
        }
        self.html = ''

    def get_html(self):
        # 構建請求物件
        req = request.Request(self.url, headers=self.headers)
        # 發起請求
        response = request.urlopen(req)
        # 轉換html
        html = response.read().decode('utf-8')
        # 給物件屬性賦值
        self.html = html
        # return html

    # 解析詳情連結和title
    def parse_detail(self):
        # 1.準備正則
        pattern = re.compile('div class="il_img.*?<a href="(.*?)" title="(.*?)"')
        # 2.提取資料
        res = re.findall(pattern, self.html)
        # for 迴圈遍歷
        for info in res:
            link = info[0]
            title = info[1]
            path = 'images/' + title
            if not os.path.exists(path):
                # # 切換到images
                # os.chdir('images/')
                # os.makedirs(title)
                os.makedirs(path)
            # 拼接詳情url地址
            detail_url = "http://www.ivsky.com" + link
            # 賦值
            self.url = detail_url
            # 新增屬性
            self.path = path
            # 呼叫解析下載圖片函式
            self.parse_src_download()

    # 解析詳情頁面每張圖片的連結，並下載儲存
    def parse_src_download(self):
        # 獲取詳情頁面的html原始碼
        self.get_html()
        pattern = re.compile('<div class="il_img.*?<img src="(.*?)"')
        res = re.findall(pattern, self.html)
        # 分割圖片名稱
        for src in res:
            print(src)
            name = src.split('/')[-1]
            # 下載圖片
            request.urlretrieve(src, self.path + '/' + name)

    # 定義啟動爬蟲的函式
    def start(self):
        self.get_html()
        self.parse_detail()


if __name__ == '__main__':
    ivsky = IvskySpider()
    ivsky.start()

執行結果：

正則應用--爬取天堂圖片網圖片（普通版本，函式版本，類版本）

第一部分：普通版本一.os包的用法先引入import os# 如果資料夾不存在，建立資料夾 if not os.path.exists(title): # 建立資料夾 os.makedirs(title)二.用urlopen發起請求發

使用正則表示式爬取古詩文網唐詩300首

思路先從唐詩300首頁面獲取所有唐詩詳情頁的連結; 再從每一首唐詩的詳情頁提取標題、作者、朝代、內容等資訊。原始碼 # !/usr/bin/env python # -*- coding:utf-8 -*- import re import r

使用正則表示式爬取500px上的圖片

網址:https://500px.com/seanarcher,seanarcher是一個up主的名字開啟這個網址,會發現有好多圖片,具體到每一個圖片的url地址 https://500px.com/photo/273383049/galya-by-sean-archer,其中

python網路爬蟲之解析網頁的正則表示式(爬取4k動漫圖片)[三]

前言 hello,大家好本章可是一個重中之重，因為我們今天是要爬取一個圖片而不是一個網頁或是一個json 所以我們也就不用用到selenium模組了，當然有興趣的同學也一樣可以使用selenium去爬取。為了方便我們就用requests模組就夠了，因為夠快。。。上章的課程傳送門： [python網路爬蟲

用Requests和正則表示式爬取豆瓣圖書TOP250

思路和上文大同小異。 import requests from requests.exceptions import RequestException import re import json headers = {'User-Agent':'Mozilla/5.0(Macinto

用Requests和正則表示式爬取貓眼電影(TOP100+最受期待榜）

目標站點分析目標站點（貓眼榜單TOP100）：如下圖，貓眼電影的翻頁offset明顯在URL中，所以只要搞定第一頁的內容加上一個迴圈加上offset就可以爬取前100。流程框架 1、抓取單頁內容利用requests請求目標站點，得到單個網頁HTML程式碼，返回結

scrapy爬取校花網圖片

xiaohua.py # -*- coding: utf-8 -*- import scrapy from pyquery import PyQuery from scrapy.http import Request from ..items import XiaohuarItem class

自學python爬蟲（四）Requests+正則表示式爬取貓眼電影

前言學了requests庫和正則表示式之後我們可以做個簡單的專案來練練手咯！先附上專案GitHub地址，歡迎star和fork，也可以pull request哦~ 地址：https://github.com/zhangyanwei233/Maoyan100.git 正文開始哈哈哈

requests正則表示式爬取貓眼電影

目標通過Request+正則表示式爬取貓眼電影TOP100電影的排名、名字、電影封面圖片、主演、上映時間、貓眼評分，將爬取的內容寫入檔案中。流程框架進入到貓眼電影TOP100的頁面，此時的URL為http://maoyan.com/board/4，點選第2頁，會發現此時的URL為http://ma

requests+正則表示式爬取豆瓣讀書top250

簡單的python練手專案，通過rquests庫請求得到豆瓣top250網頁原始碼，並通過正則表示式匹配得到對應資訊-書名，作者資訊，評分以及簡介。網站的URL為’https://book.douban.com/top250?start=0’,但我們拉到底部發現250本讀書的資訊被分成了1

利用C#爬取煎蛋網圖片

本程式還有待優化，我只爬取了每個頁面的第一張圖片，你們可以自己更新優化程式碼以實現全站爬取的功能。主要用到的名稱空間有： using System; using System.Collections.Generic; using System.ComponentModel; usi

14-Requests+正則表示式爬取貓眼電影

'''Requests+正則表示式爬取貓眼電影TOP100''''''流程框架：抓去單頁內容：利用requests請求目標站點，得到單個網頁HTML程式碼，返回結果。正則表示式分析：根據HTML程式碼分析得到電影的名稱、主演、上映時間、評分、圖片連結等資訊。儲存至檔案：通過檔案的形式儲存結果，每一部電影一個結

Python爬蟲實戰之Requests+正則表示式爬取貓眼電影Top100

import requests from requests.exceptions import RequestException import re import json # from multiprocessing import Pool # 測試了下這裡需要自己新增頭部否則得不到網頁 hea

Python爬蟲-利用正則表示式爬取貓眼電影

利用正則來爬去貓眼電影 =================================== ===================================================== 1 ''' 2 利用正則來爬去貓眼電影 3 1. url: http://maoya

通過分析ajax，使用正則表示式爬取今日頭條

今日頭條是一個動態載入頁面的網站，這一類的網站直接使用requests爬取的話得不到我們想要的內容。所以一般這類的網站都是通過分析ajax來進行抓包來獲取我們想要的內容。老規矩，首先列出需要引入的庫： import json import os from urllib.

利用Requests庫和正則表示式爬取豆瓣影評Top250

說明最近看了下爬蟲基礎，想寫個部落格來記錄一下，一來是可以方便和我一樣剛入門的小白來參考學習，二來也當做自己的筆記供自己以後查閱。本文章是利用python3.6和Requests庫（需自行安裝，cmd裡執行pip install r

Python批量爬取堆糖網圖片

import urllib.parse import requests #第三方請求庫 import json import jsonpath #處理json檔案的的提取庫 from bs4 import BeautifulSoup import os im

Requests+正則表示式爬取貓眼TOP100電影

需要著重學習的地方:(1)爬取分頁資料時,url連結的構建(2)儲存json格式資料到檔案,中文顯示問題(3)執行緒池的使用(4)正則表示式的寫法 import requests from requests.exceptions import RequestException import re im

[python] 常用正則表示式爬取網頁資訊及分析HTML標籤總結

這篇文章主要是介紹Python爬取網頁資訊時，經常使用的正則表示式及方法。它是一篇總結性文章，實用性比較大，主要解決自己遇到的爬蟲問題，也希望對你有所幫助~ 當然如果會Selenium基於自動化測試爬蟲、BeautifulSoup分析網頁DOM節點，這就更方便了，但本文更多

Python利用xpath和正則re爬取新浪新聞

今天我們來進行簡單的網路爬蟲講解:利用用from lxml import html庫+Xpath以及requests庫進行爬蟲 1.我們將爬取新浪微博首頁要聞我們摁F12檢視網頁原始碼查詢要聞內容所對應的HTML的程式碼通過觀察我們可以發現每個標題都在<h1 data-client

正則應用--爬取天堂圖片網圖片（普通版本，函式版本，類版本）

第一部分：普通版本

第二部分：函式版本

第三部分：類版本

相關推薦