1. 程式人生 > >網站爬取-案例二:天貓爬取( 第一卷:首頁數據抓取)

網站爬取-案例二:天貓爬取( 第一卷:首頁數據抓取)

img .com 我想 提供商 網站 col class scoller bubuko

說到網站數據的爬取,目前為止我見過最復雜的就是天貓了,現在我想對它進行整站的爬取

我們先來看下天貓主頁的界面

技術分享圖片

天貓頁面很明顯是動態頁面 所以我們需要用selenium模塊

首先我們抓取下行業列表,留作之後的深度爬取

技術分享圖片

我們來看下結果:

技術分享圖片

看到商品鏈接和行業列表的完美展現了吧

可是當前頁面並沒抓取完畢,我們現在看下首頁還有什麽內容

技術分享圖片

我們順帶抓取下發先並沒有我們想要的東西,說明頁面沒有抓取完畢,熟悉網站制作的同僚們因該知道這樣的頁面都是用OVERFLOW:hidden的方式來做的布局,所以我們可以利用JS的SCOLLER事件來進行動態加載獲取當前整個頁面的源碼

技術分享圖片我們把打印的源碼拿下來分析下抓取優惠卷的價格和提供商品的價格

技術分享圖片

由於我的網絡和設置的數值過大所以數據加載的不完整:

看下結果:

技術分享圖片

好好調整一下 就可以獲取所有數據

網站爬取-案例二:天貓爬取( 第一卷:首頁數據抓取)