批量爬取某圖片網站的圖片

阿新 • • 發佈：2018-11-01

批量爬取某圖片網站的圖片

宣告：僅用於爬蟲學習，禁止用於商業用途謀取利益

1、網頁解析

（1）開啟veer首頁，F12(谷歌瀏覽器)，輸入關鍵字，點選搜尋，點選檢視如圖畫圈位置
（2）檢視search中的Headers，找到請求的URL和請求的payload，URL是請求的網址，payload是傳送請求時的引數

對於各個詳細的引數在程式碼部分會詳細講
（3）檢視響應（請求發出後的返回的資料包），格式是字典格式也就是map，可以看到list中放的id

在這裡插入圖片描述

（4）裡邊有對圖片的中文描述

在這裡插入圖片描述

（5）找到圖片所在網頁

在這裡插入圖片描述

（6）找到最大尺寸的圖片網址

2、程式碼解析

#conding=utf-8

import requests
import json

def download(img_url, img_name):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:62.0) Gecko/20100101'
    }
    req = requests.get(img_url, headers=headers)
    path = r'F:\newimg'
    file_name = 
 path + '\\' + img_name+img_url[-13:]#圖片名為描述+圖片的編號
    f = open(file_name, 'wb')
    f.write(req.content)#以位元組流的形式讀入檔案
    f.close


def get_list(name, type):
    url = 'https://www.veer.com/ajax/search' #URL
    header = {
        'content-type': 'application/json',
        'Host': 'www.veer.com',
        'User-Agent' 
: 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
    }
    payloadData = {
        'graphicalStyle': type, #型別：1.照片 2.插畫 3.向量圖 Nan為全部
        'page': 1,  #分頁數量
        'page_type': 6, #分頁的格式，這個不重要
        'perpage': 10000, #一頁多少圖片
        'phrase': name #搜尋的關鍵字
    }# 分頁數量為1，一頁10000，是為了儘量只從一個頁面上的到所有的list
    html = requests.post(url, data=json.dumps(payloadData), proxies={"http" : "http:// 115.225.74.53: 8118"}, headers=header).text #payloadData要求用josn來進行解析，代理ip自己去爬取，
    list = json.loads(html)#獲取json解析的list，不然全是亂碼
    data = list['data'] #封裝成字典格式
    print("總共搜尋到圖片：",data['totalCount'], "張圖片")
    id = data['list']
    for sid in id:
        print(sid['oss400'], sid['cnTitle'])#用的是400的，為了veer的利益，不採用1600尺寸的圖片
        if sid['cnTitle']==None:#防止圖片描述為空
            sid['cnTitle'] = "none"
        download(sid['oss400'], sid['cnTitle'])#進行下載



if __name__ == '__main__':
    print("輸入搜尋圖片名稱：")
    name = input()
    print("選擇圖片型別1.照片 2.插畫 3.向量圖 4.所有")
    type  = input()
    if type>'3':
        type=""
    get_list(name, type)

3、效果展示

（1）程式執行介面
（2）檔案儲存介面

批量爬取某圖片網站的圖片

批量爬取某圖片網站的圖片宣告：僅用於爬蟲學習，禁止用於商業用途謀取利益 1、網頁解析（1）開啟veer首頁，F12(谷歌瀏覽器)，輸入關鍵字，點選搜尋，點選檢視如圖畫圈位置（2）檢視search中的Headers，找到請求的URL和請求的paylo

程式設計師的福利：使用WebCollector爬取某美女網站上的圖片

程式設計師的福利：使用WebCollector爬取某美女網站上的圖片 0x00 需求某網站，有海量美女圖片，裡面預設是按美女的英文名字（A-Z）排序的。估算了一下，至少也得有3000+位美女照片，每位的照片數目從幾十張到幾百張不等。瀏覽了幾天，才瀏覽了很少的一部分。心想，

利用Python批量爬取XKCD動漫圖片，並批量儲存

import requests, os, bs4 url = 'https://xkcd.com' os.makedirs('xkcd',exist_ok = True) while not url.endswith('#'): # download the page

Python批量爬取堆糖網圖片

import urllib.parse import requests #第三方請求庫 import json import jsonpath #處理json檔案的的提取庫 from bs4 import BeautifulSoup import os im

python 3 爬取某小說網站小說，註釋詳細

每一行都有註釋，不多解釋了 import requests from bs4 import BeautifulSoup import os if __name__ == '__main__': # 要下載的網頁 url = 'https://www.b

生產者消費者模型爬取某金融網站資料！Python無所不爬！

那麼這個模型和爬蟲有什麼關係呢？其實，爬蟲可以認為是一個生產者，它不斷從網站爬取資料，爬取到的資料就是食物；而所得資料需要消費者進行資料清洗，把有用的資料吸收掉，把無用的資料丟棄。以上便是對生產者消費者模型的簡單介紹了，下面針對本次爬取任務予以詳細說明。分析站點http://www.cfachina.org/

用Python Scrapy爬取某電影網站並存儲入mysql

爬取目標：javlib，使用框架Scrapy 首先使用在命令列裡scrapy startproject projectname和scrapy genspider spidername指令建立爬蟲。首先定義items.pyimport scrapy class Av

用python爬取某視訊網站彈幕

文章以bilibili的《變態王子與不笑貓》（這是一部正常的日漫，請放心觀看）為例，爬取該番劇下所有視訊的彈幕。困難的地方主要在尋找視訊的cid上，確實花了點時間，最好找到了也有點恍然大悟，再就是請求彈幕的連結地址，也需要去所有請求裡找，耐心很重要。最後，採用多執行緒

爬取某招聘網站的招聘資訊（獵聘）

這該找工作了，俗話說的胡奧，金九銀十嘛。一個一個招聘資訊找著看，有點麻煩。所以心動了下，不如把我想找的資訊都爬取下來，直接sql語句查詢所有相關資訊，多方便，是吧~ 注：如果start-urls只設置一個的話，那麼只會爬取等於或者小於40條資料

Python3.7爬蟲大量爬取某小說網站小說並寫入mysql(持續完善中...) 未解決問題:mysql長時間新增超過百萬條數據表鎖甚至崩潰

oot req val page src sele 爬蟲 use uwa 練手之作代碼中還有很多問題持續完善中渣渣阿裏T5 99包郵服務器只開了6個進程 #encoding:utf-8 import requests # 請求 from lxml import

selenium 爬取某基金網站資料

# coding: utf-8 from selenium import webdriver import time driver = webdriver.Chrome() driver.get( 'http://fund.eastmoney.com/data/f

java爬取某電影網站資料

使用jsoup獲取動態網站的資料部分程式碼： /** * 獲取分類的所有相對連結地址和名稱，儲存到map中，返回資料 * */ public class GetMoviesName { private String url; H

java使用jsoup，多執行緒批量爬取天極網某分類下的圖片

小Demo轉自csdn某作者，本例子只作為測試，頁面個數直接設定了100個，可以可能會少或者多，容易報錯，更優化的一種方式是獲取“下一頁”按鈕的地址，然後再訪問，當訪問不到“下一頁”的內容時跳出多執行緒只體現在檔案提取，也可以在elements迴圈中再加一個多執行緒

python3多執行緒爬蟲爬取某美女圖片網站的指定頁圖片資源，你懂的

Queue（佇列物件） queue是python3中的標準庫，可以直接import queue引用;佇列是執行緒間最常用的交換資料的形式。 python下多執行緒的思考對於資源，加鎖是個重要的環節。因為python原生的list,dict等，都是not

java使用jsoup，多執行緒批量爬取天極網某分類下的美女圖片

本例子只作為測試，頁面個數直接設定了100個，可以可能會少或者多，容易報錯，更優化的一種方式是獲取“下一頁”按鈕的地址，然後再訪問，當訪問不到“下一頁”的內容時跳出多執行緒只體現在檔案提取，也可以在elements迴圈中再加一個多執行緒訪問頁面的本案例需要jsoup包的

練習-爬取某圖片及查詢IP地址

AI for AR 信息 enc 查詢 ext text 建立爬取某圖片的程序： #圖片爬取全代碼 import requests import os url=‘http://img0.dili360.com/rw9/ga/M01/4A/3D/wKgBy1p6qJ6AL

Python爬取皮克斯圖片網站並放入資料夾

#皮克斯圖片網站爬蟲 #css選擇器 import requests import re import lxml from bs4 import BeautifulSoup urls=['https://www.pexels.com/?page={}'.format(str(

用Python批量爬取妹紙圖片

通過Python編寫爬蟲，批量爬取妹紙圖片，本文的爬蟲實現爬取妹子圖網站（http://www.mzitu.com/zipai/）中妹子自拍欄目中所有妹子的圖片。開啟自拍欄目地址http://www.mzitu.com/zipai/後，我們發現當前頁面預

python 爬取圖片網站圖片連結並下載收集

python進行圖片網站圖片收集，主要分成如下幾個部分：（1）進行網站html頁面分析，分析你要找到的圖片的連結，以及每個連結url是怎麼構成的，如果通過爬取頁面的html獲取這些圖片的連結（2）通過python將這些已知連結的圖片下載下來注意這行程式碼header = {"

批量爬取某圖片網站的圖片