【python 淘寶爬蟲】淘寶信譽分抓取

阿新 • • 發佈：2019-02-15

一、需求分析
輸入旺旺號，獲取淘寶賣家的信用分

這裡寫圖片描述

二、思路
淘寶需要模擬登陸，我們這裡抓不到，因此為了繞過登陸，發現了淘一兔，我們可以通過這裡，得到淘寶賣家的信用分，結果是一樣的。
http://www.taoyizhu.com/

這裡寫圖片描述

輸入旺旺號，需要點選查詢，等待幾秒，得到查詢結果，這裡我們用selienum 來做

三、實現原始碼（抓取不能太快，否則抓不到）

# encoding: utf-8

from selenium import webdriver
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import pandas as 
 pd
import time
import re
time1=time.time()

driver=webdriver.PhantomJS(executable_path='D:\\Program Files\\Python27\\Scripts\\phantomjs.exe')
driver.set_window_size(800, 600)

########################讀取資料############################
data1=pd.read_excel(r'C:/taobao/taobao1.xlsx')
print data1


#######################查詢店鋪信譽分############################# 

seller_credit=[]
for i in range(0,len(data1)):
    key=str(data1.iloc[i,0])
    key1=key.decode("utf-8")
    driver.get("http://www.taoyizhu.com/")
    time.sleep(5)
    driver.find_element_by_id("txt_name").clear()
    driver.find_element_by_id("txt_name").send_keys(key1)
    driver.find_element_by_id('search_btn' 
).click()
    time.sleep(3)
    html2 = driver.page_source
    seller_credit1 = re.findall('<span id="spanUserSellerCount">(.*?)</span>', html2, re.S)
    for each in seller_credit1:
        print key,each
        seller_credit.append(each)


#######################################增加店鋪信譽分這一列#############################
data1['店鋪信譽分']=seller_credit

print data1


# 寫出excel
writer = pd.ExcelWriter(r'C:\\taobao\\taobao1_all.xlsx', engine='xlsxwriter', options={'strings_to_urls': False})
data1.to_excel(writer, index=False)
writer.close()

time2 = time.time()
print u'ok,爬蟲結束!'
print u'總共耗時：' + str(time2 - time1) + 's'

這裡寫圖片描述

【python 淘寶爬蟲】淘寶信譽分抓取

一、需求分析輸入旺旺號，獲取淘寶賣家的信用分二、思路淘寶需要模擬登陸，我們這裡抓不到，因此為了繞過登陸，發現了淘一兔，我們可以通過這裡，得到淘寶賣家的信用分，結果是一樣的。 http:

【網路爬蟲】使用HttpClient4.3.5抓取資料

使用jar——Apache client 程式碼結構：具體程式碼：抓取結果封裝 /** * 抓取結果的封裝 * @author tsj-pc * */ public class CrawlResultPojo { pri

【Hibernate（四）】HQL_QBC查詢詳解——抓取策略優化機制

1.2 Hibernate的查詢的方式 Hibernate共提供了五種查詢方式。 1.2.1 Hibernate的查詢方式：OID查詢 OID檢索：Hibernate根據物件的OID（主鍵）進行檢索 1.2.1.1 使用get方法 Customer customer

【3月24日】Requests+正則表示式抓取貓眼電影Top100

本次實驗爬蟲任務工具較為簡單，主要是熟悉正則表示式的匹配： pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>

【Python爬蟲】Scrapy框架運用1—爬取豆瓣電影top250的電影資訊(1)

一、Step step1: 建立工程專案 1.1建立Scrapy工程專案 E:\>scrapy startproject 工程專案 1.2使用Dos指令檢視工程資料夾結構 E:\>tree /f step2: 建立spid

【Python模塊學習】sys模塊

err form pri 字符串文件系統 version stdout 通過編碼方式 sys模塊的操作如下： 1 sys.argv # 實現從程序外部向程序傳遞參數。 2 sys.exit([arg]) # 程序中間的退出，arg=0為正常退出。 3 sys

【Python常見問題總結】

future 環境 rbegin 參考 root 都是虛擬 bsp 有效 1. python2 中 end = ‘‘ 取消換行沒有用解決辦法: 在程序開始加入 from __future__ import print_function 2. 如何在電腦上同時使用py

【python常見面試題】之python 中對list去重的多種方法

ont dex 如果原來簡單 div set方法 ron 職位在python相關職位的面試過程中，會對列表list的去重進行考察。（註意有時會要求保證去重的順序性） 1、直觀方法 1 li=[1,2,3,4,5,1,2,3] 2 new_li=[] 3 for

【Python數據分析】

改變 line 數組調整 panda title 索引對象 play back 索引對象的其他功能 ①更換索引 ②對齊 ③刪除一、更換索引我們已經知道，數據結構一旦聲明，index對象就不能改變事實上，我們重新定義索引之後，我們就能夠用現有的數據結構生成一個新的數

01月05日三周四次【Python基礎進階】

是個快速 files 函數 true 結果 lis pre 序列 1.8 遞歸列出目錄裏的文件1.9 匿名函數 1.8 遞歸列出目錄裏的文件 #### 遍歷目錄裏的文件(不支持子目錄文件) import os for i in os.listdir(‘C:/Users

01月11日四周四次【Python基礎進階】

顯示進階 col super 自定義方法總結總結類方法 3.1 3.1/3.2 類的繼承3.3 類的屬性總結3.4 類的方法總結 3.1/3.2 類的繼承類的繼承繼承是面向對象的重要特點之一繼承關系: 繼承是相對兩個類而言的父子關系,子類繼承父類所有的公有

【Selenium】【Python多線程】

edi runt class file mage lis .html cover 分享 # all_tests_pro.py import unittest,time,os,multiprocessingimport HTMLTestRunner#查找多有含有thr

01月12日四周五次【Python基礎進階】

python3.5 rc腳本（類的定義與腳本的結構）3.6 rc腳本（start方法）3.7 rc腳本（stop和status方法）3.8 rc腳本（以daemon方式啟動） 3.5 rc腳本（類的定義與腳本的結構）/3.6 rc腳本（start方法）/3.7 rc腳本（stop和status方法） imp

【python 字符串】字符串的相關方法(二)

src height log ima alex style 字符圖片 true 查找元素所在的第一個的索引位置 text.find() 可有開始和結束位置查找 find(‘ex‘,3,6) # 查找元素的索引位置 text = ‘alexalex‘ ret =

【python 字符串】字符串的相關方法(三)

nbsp join 等等 () pri 查找開始反斜杠不能 # 將字符串中的每個元素，按照指定分隔符進行拼接 # 空格、# 、_ 等等不能是反斜杠 test = ‘你是風兒我是沙‘ ret = ‘#‘.join(test) print(ret) 你#是

【Python pip 基礎命令】

http ear 所在 In comm img 包名 AS TE pip 簡介 pip 是Python的著名的包管理用於，用於對Python包進行便捷的安裝、卸載、升級等相關操作。 pip 安裝 sudo easy_install pip pip --versio

【Python學習之七】面向對象高級編程——使用@property

https nbsp targe property itl lan pytho bsp 使用參考來自廖雪峰Python教程：https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a

【Python學習之十】yield之send方法

下一條 lis 區別但是查找接受 python 方法完全 yield作用　　簡單地講，yield 的作用就是把一個函數變成一個 generator，帶有 yield 的函數不再是一個普通函數，Python 解釋器會將其視為一個 generator。下面以斐波拉契數

【python標準庫學習】thread，threading(一)多線程的介紹和使用

超時 targe 同步問題線程線程同步鎖定義類查看兩個 key 在單個程序中我們經常用多線程來處理不同的工作，尤其是有的工作需要等，那麽我們會新建一個線程去等然後執行某些操作，當做完事後線程退出被回收。當一個程序運行時，就會有一個進程被系統所創建，同時也會有一個線

【爬蟲】002 python3 +beautifulsoup4 +requests 爬取靜態頁面

bgcolor img err 預覽政府 bold 技術貴的頁面元素實驗環境: win7 python3.5 bs4 0.0.1 requests 2.19 實驗日期：2018-08-07 爬取網站：http://www.xhsd.cn/ 現在的網站大多有復雜

【python 淘寶爬蟲】淘寶信譽分抓取

相關推薦