Python資料探勘學習筆記（12）淘寶圖片爬蟲實戰

阿新 • • 發佈：2018-12-10

所謂圖片爬蟲，即是從網際網路中自動把對方伺服器上的圖片爬下來的爬蟲程式。

一、圖片爬蟲前的網頁連結分析

1.首先開啟淘寶首頁，在搜尋框中輸入關鍵詞，如“神舟”，在搜尋結果介面中點選下一頁，分別開啟第一頁，第二頁，第三頁的搜尋結果，並記下每一頁結果的URL至記事本中，如下：

2.觀察每一個網頁的URL，不要去觀察它們不同的部分，而是著眼於每個URL中相似的部分。

（1）可以注意到每個URL中都有“s=XXX”部分，推測為代表了不同的頁碼的數值，0代表第一頁，44代表了第二頁，88代表了第三頁，推測132代表第四頁，將第一頁的URL中的“s=0”修改為“s=132”，即可發現神奇般地跳轉到了第四頁。

（2）雖然將URL複製下來之後無法看到關鍵詞，但是在瀏覽器中可以清晰看到“q=XXX”為輸入的關鍵詞內容，可以推測，瀏覽器在實際獲取網頁時將中文字元進行了編碼。

3.因此可以初步設想出圖片爬蟲所需要的網頁連結的結構：（在任意頁的URL基礎上進行修改）

二、圖片爬蟲前的圖片連結分析

1.右鍵單擊淘寶網頁上的圖片，點選複製圖片地址，貼上到記事本中分析：

3.觀察URL，注意到前半部分為圖片資源在伺服器中的地址，後半部分為圖片名稱以及其格式，特別是“250X250”代表了圖片的解析度，因為在淘寶搜尋頁中，為節省資源，採取了縮圖的方式。

4.將圖片URL中的核心部分，如本例的“TB2ISTydyCYBuNkSnaVXXcMsVXa”在原始碼頁面中進行搜尋：

將連結複製下來開啟，即可發現，高清大圖無處遁形：

5.觀察圖片連結的前後格式，注意到前以 pic_url":" 開頭，後以 ", 結尾，本例內容比較簡單，無需進行抓包即可獲取圖片連結。

三、圖片爬蟲程式編寫

import urllib.request
import re
keyname="神舟"
key=urllib.request.quote(keyname) #編碼
#嘗試爬取前三頁內容
for i in range(0,3): 
    #構造頁面URL
    url="https://s.taobao.com/search?q="+key+"&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20180915&ie=utf8&bcoffset=3&ntoffset=3&p4ppushleft=1%2C48&s="+str(i*44)
    data=urllib.request.urlopen(url).read().decode("utf-8","ignore")
    pat='pic_url":"//(.*?)"'
    #獲得圖片URL
    imagelist=re.compile(pat).findall(data)
    for j in range(0,len(imagelist)):
        thisimg=imagelist[j]
        #構造圖片URL
        thisimgurl="http://"+thisimg
        file="F:/taobaoIMG/"+str(i)+str(j)+".jpg"
        urllib.request.urlretrieve(thisimgurl,filename=file)

已知問題：爬取結果圖片可能會是匹配度較差的圖片，如本例可能會出現諸如神舟飛船模型、神舟鳥電動車之類的結果，可能是淘寶網站做的反爬蟲阻攔，歡迎大神指點。

感謝韋瑋老師的指導

Python資料探勘學習筆記（12）淘寶圖片爬蟲實戰

所謂圖片爬蟲，即是從網際網路中自動把對方伺服器上的圖片爬下來的爬蟲程式。一、圖片爬蟲前的網頁連結分析 1.首先開啟淘寶首頁，在搜尋框中輸入關鍵詞，如“神舟”，在搜尋結果介面中點選下一頁，分別開啟第一頁，第二頁，第三頁的搜尋結果，並記下每一頁結果的URL至記

Python資料探勘學習筆記（1）文字挖掘入門

一、準備階段：（1）開啟cmd，pip安裝jieba（pip install jieba）（2）開啟python安裝目錄的Lib->site-packages->jieba，開啟dict.txt，可以看到這是jieba模組的詞典：每

Python資料分析與挖掘學習筆記（4）淘寶商品資料探索與清洗實戰

一、相關理論：資料探索的核心：（1）資料質量分析（跟資料清洗密切聯絡）（2）資料特徵分析（分佈、對比、週期性、相關性、常見統計量等）資料清洗的步驟：（1）缺失值處理（通過describe與len直接發現、通過0資料發現）（2）異常值處理（通過散點圖發現

Java nio 學習筆記（四）淘寶2012校招技術筆試題

實現五：統計一個單詞可重複的英文檔案（假設4G）中每個單詞出現的次數，把結果按照英文排序放入一個檔案中。並能夠檢索特定單詞的出現次數。由於檔案過大，不重複單詞總數有限，需要考慮到執行速度和記憶體使用情況。（淘寶筆試技術題） import java.io.File; imp

python學習筆記（12）文件讀寫

沒有 pen wid cor 註釋 jos .html .get .com 原鏈：http://www.cnblogs.com/vamei/archive/2012/06/06/2537868.html 第一部分： #文件讀寫 #f = open(文件名，模式) #"r"

Python資料探勘學習——親和性分析

最近了解了一些Python資料探勘方面的內容，主要學習了《Python資料探勘入門與實踐》這本書的內容，在這裡對書中的內容以及我遇到的一些問題進行整理。資料探勘旨在讓計算機根據已有的資料作出決策。資料探勘的第一步一般是建立資料集，資料集主要包括：（1）樣本：表示真實世界中的物體

《資料結構與演算法 python語言描述》學習筆記（一）————緒論

第一部分：學習內容概要程式開發過程問題求解演算法和演算法分析資料結構第二部分：學習筆記程式開發過程框架圖分析，嚴格化——設計——編碼——檢查，翻譯——測試/除錯牛頓迭代法 0.對給定正實數x和允許誤差e，令變數y取

《資料結構與演算法 python語言描述》學習筆記（二）————抽象資料型別和Python類

第一部分：學習內容概要抽象資料型別 Python的類第二部分：學習筆記抽象資料型別 1.抽象資料型別（Abstract Data Type，ADT），通過一套介面闡述說明這一程式部分的可用功能，但不不限制功能的實現方法。 2.抽象資料型

R語言與資料探勘學習筆記(1)：資料探勘相關包的介紹

今天發現一個很不錯的部落格(http://www.RDataMining.com)，博主致力於研究R語言在資料探勘方面的應用，正好近期很想系統的學習一下R語言和資料探勘的整個流程，看了這個部落格的內容，心裡久久不能平靜。決定從今天開始，只要晚上能在11點之前把碗洗好，就花一個小時的時間學習部落格上的內容，並把

資料探勘學習筆記-決策樹演算法淺析(含Java實現)

目錄一、通俗理解決策樹演算法原理二、舉例說明演算法執行過程三、Java實現本文基於書籍《資料探勘概念與技術》，由於剛接觸Data Mining，所以可能有理解不到位的情況，記錄學習筆記，提升自己對演算法的理解。程式碼下方有，如果有金幣的童鞋可以貢獻一下給無恥的

【資料探勘學習筆記】10.頻繁模式挖掘基礎

一、基本概念頻繁模式– 頻繁的出現在資料集中的模式– 項集、子序或者子結構動機– 發現數據中蘊含的事物的內在規律• 項(Item) – 最小的處理單位 – 例如：Bread, Milk• 事務(Transaction) – 由事務號和項集組成 – 例如：<1, {Bre

【資料探勘學習筆記】11.頻繁模式挖掘進階與關聯規則

一、關聯規則關聯規則步驟：– 1、找個這個“同一項集”，相同的項集對應的規則有相同的支援度，找到支援度≥minsup的項集– 2、計算項集中所有規則的置信度，找到置信度≥minconf的規則由頻繁項集生成關聯規則生成關聯規則– 給定頻繁項集L，找出L的所有非空子集f，滿足f

Python 下字串的連線、簡單替換與unicode字串- 千月的python linux 系統管理指南學習筆記（12）

Python 下字串的連線、簡單替換與unicode字串繼續上一章的內容，看一看字串的連線和替換字串的連線 join() 將多個字串連線起來的”膠水“ 字元物件.join(字串或者列表) #連線字串，或者與列表裡的字元分別連線。光是將2個字串相連。其實意義不大，一個

python框架之 Tornado 學習筆記（一）

tornado pythontornado 一個簡單的服務器的例子：首先，我們需要安裝 tornado ，安裝比較簡單： pip install tornado 測試安裝是否成功，可以打開python 終端，輸入： import tornado.https

C#學習筆記（12）——三種方法操作XML

結點記得 ext 應用程序 eval 資源特性 pla cells 說明（2017-7-11 16:56:13）：原文地址： C#中常用的幾種讀取XML文件的方法 XML文件是一種常用的文件格式，例如WinForm裏面的app.config以及Web程序中的web.c

Linux第一周學習筆記（12）

log bin ash font 內容用戶權限 cfg 符號 Linux第一周學習筆記（12）2.3：ls命令ls –l命令：列出文件詳細信息ls –i命令: 查看inode號ls –lh命令：查看文件大小ls –la命令：查看所有文件以及隱藏的文件ls –lt命令：

Linux第二周學習筆記（12）

dai 二進制可執行文件更改密碼 bsp -- roo 超級 ado conda Linux第二周學習筆記（12）2.18 特殊權限set_uidset_uid:這個權限是針對二進制可執行文件，使文件在執行階段具有文件所有者的的權限。-------------------

Python第三周學習筆記（2）

學習筆記選擇排序：時間復雜度O(n**2) 沒有辦法知道當前輪是否已經達到排序要求，但是可以知道極值是否在目標索引位置上遍歷次數1,...,n-1之和n(n-1)/2 對比冒泡法：減少了交換次數，提高了效率，性能略好方法三、四實際上降低的是平均時間復雜度方法一： nums = [1, 2, 6,

Python第三周學習筆記（1）

學習筆記；內建函數；字典；列表解析式字典 key-value鍵值對的數據的集合可變的、無序的、key不重復初始化： d = dict() d = {} d = dict(**kwargs) 如：d = dict(a=1,b=2) dict(iterable, **kwarg) 使用可叠代對象和na

Python第五周學習筆記（1）

學記筆記高階函數 First Class Object 函數也是對象，可調用的對象函數可以作為普通變量、參數、返回值等等數學概念 y=g(f(x)) 在數學和計算機科學中，高階函數應當是至少滿足下面一個條件的函數接受一個或多個函數作為參數輸出一個函數內建高階函數 sorted(itera

Python資料探勘學習筆記（12）淘寶圖片爬蟲實戰

感謝韋瑋老師的指導

相關推薦