Selenium學習四——利用Python爬取網頁多個頁面的表格資料並存到已有的excel中

阿新 • • 發佈：2019-02-19

利用Python爬取網頁多個頁面的表格資料並存到已有的excel中

1、具體要求

獲取牛客網->題庫->線上程式設計->劍指Offer網頁，獲取表格中的全部題目，儲存到本地excel中

2、技術要求

利用Selenium+Python獲取網頁，操作到table頁面

通過xlwt、xlrd、xlutils模組，將表格儲存到本地excel

xlwt：寫入excel（新建）

xlrd：讀取excel

xlutils：將xlrd.Book轉為xlwt.workbook，在原有的excel基礎上進行修改，新增等。

技術部落格參考：http://www.cnblogs.com/jiangzhaowei/p/5856604.html

3、主要程式碼

from xlutils.copy import copy
import xlwt
import xlrd
import os

def load_Table(page):
    #建立工作簿
    wbk = xlwt.Workbook(encoding='utf-8', style_compression=0)
    #建立工作表
    sheet = wbk.add_sheet('sheet 1', cell_overwrite_ok=True)
    excel = r"C:\xxx\test.xls"
    table_rows = driver.find_element_by_xpath("//*[@class='module-body offer-body']/table/tbody").find_elements_by_tag_name('tr')
    row = 20
    for i, tr in enumerate(table_rows):
        if i==0 and page==0:
            table_cols1 = tr.find_elements_by_tag_name('th')
            for j, tc in enumerate(table_cols1):
                sheet.write(i, j, tc.text)
                wbk.save(excel)
        else:
            table_cols2 = tr.find_elements_by_tag_name('td')
            for j, tc in enumerate(table_cols2):
                 #老的工作簿，開啟excel
                 oldWb = xlrd.open_workbook(excel, formatting_info=True)
                 #新的工作簿,複製老的工作簿
                 newWb = copy(oldWb)
                 #新的工作表
                 newWs = newWb.get_sheet(0)
                 newWs.write(i + page * row, j, tc.text)
                 #os.remove(excel)
                 newWb.save(excel)

def switch_page():
    #獲取頁數（除去首頁 、尾頁、上一頁和下一頁） 
    pages = driver.find_element_by_xpath("//*[@class='pagination']/ul").find_elements_by_tag_name('li')
    t = len(pages)-4
    for i in range(t):
        driver.find_element_by_link_text(str(i+1)).click()
        print i
        load_Table(i)

4、xlutils

引入模組

from xlutils.copy import copy
import xlwt
import xlrd

用xlwt建立工作簿工作表

 #建立工作簿
 wbk = xlwt.Workbook(encoding='utf-8', style_compression=0)
 #建立工作表
 sheet = wbk.add_sheet('sheet 1', cell_overwrite_ok=True)

寫入excel，並儲存到本地原有的excel中（用xlwt這樣儲存會覆蓋之前的內容）

 sheet.write(i, j, tc.text)
 wbk.save(excel)

用xlrd開啟excel（formatting_info=true保證時間資料在copy時保持原樣）

oldWb = xlrd.open_workbook(excel, formatting_info=True)

複製excel檔案

newWb = copy(oldWb)

讀取複製的excel檔案的第一個sheet

newWs = newWb.get_sheet(0)

向這個sheet寫入資料

newWs.write(i, j, tc.text)

刪除原先存在的excel

os.remove(excel)

儲存這個新的excel檔案

newWb.save(excel)

5、全部程式碼

#coding:utf-8
from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
from xlutils.copy import copy
import xlwt
import xlrd
import os
import time

'''
下載牛客網首頁 > 線上程式設計 > 劍指Offer的題目表到excel
讀取excel裡的值
'''
driver = webdriver.Chrome()
driver.get("https://www.nowcoder.com/")
time.sleep(2)

def switch_window():
    #獲取當前控制代碼
h = driver.current_window_handle
    print h
    #跳轉到指定頁面
element = driver.find_element_by_xpath("//*[@class='nowcoder-navbar']/li[2]/a")
    ActionChains(driver).move_to_element(element).perform()
    driver.find_element_by_xpath("//*[@class='sub-nav']/li[3]/a").click()
    time.sleep(2)
    driver.find_element_by_xpath("//*[@class='topic-list clearfix']/li[1]").click()
    #切換到指定頁面
driver.close()
    all_h = driver.window_handles
    for i in all_h:
      if i != h:
            driver.switch_to.window(i)

def load_Table(page):
    #建立工作簿
wbk = xlwt.Workbook(encoding='utf-8', style_compression=0)
    #建立工作表
sheet = wbk.add_sheet('sheet 1', cell_overwrite_ok=True)
    excel = r"C:\xxx\test.xls"
table_rows = driver.find_element_by_xpath("//*[@class='module-body offer-body']/table/tbody").find_elements_by_tag_name('tr')
    row = 20
print row
    for i, tr in enumerate(table_rows):
        if i==0 and page==0:
            table_cols1 = tr.find_elements_by_tag_name('th')
            for j, tc in enumerate(table_cols1):
                sheet.write(i, j, tc.text)
                wbk.save(excel)
        else:
            table_cols2 = tr.find_elements_by_tag_name('td')
            for j, tc in enumerate(table_cols2):
                 #老的工作簿，開啟excel
oldWb = xlrd.open_workbook(excel, formatting_info=True)
                 #新的工作簿,複製老的工作簿
newWb = copy(oldWb)
                 #新的工作表
newWs = newWb.get_sheet(0)
                 newWs.write(i + page * row, j, tc.text)
                 os.remove(excel)
                 newWb.save(excel)
    print 'save done'
def switch_page():
    pages = driver.find_element_by_xpath("//*[@class='pagination']/ul").find_elements_by_tag_name('li')
    t = len(pages)
    for i in range(t-4):
        driver.find_element_by_link_text(str(i+1)).click()
        print i
        load_Table(i)

switch_window()
switch_page()
print 'done'

6、遇到的問題
本次試驗程式碼對於table換頁的處理較為粗暴，直接通過點選頁碼操作，for迴圈將每一頁新增到excel中去。由於是學的階段，還有其他的方法以後再完善。

①在新增過程中，一開始沒有使用xlutils，導致每次只有最後一頁資料，因為覆蓋了。

②後來新增的時候for語句沒有寫好，導致行亂序了，仔細一點就ok

注：數字變為字串前面要加str轉換，table的index從0開始，頁面元素定位從1開始

如

定位find_element_by_xxpath("//*[@class='search-input-wrap']/table/tbody/tr[4]/td[2]")

Selenium學習四——利用Python爬取網頁多個頁面的表格資料並存到已有的excel中

利用Python爬取網頁多個頁面的表格資料並存到已有的excel中 1、具體要求獲取牛客網->題庫->線上程式設計->劍指Offer網頁，獲取表格中的全部題目，儲存到本地excel中 2、技術要求利用Selenium+Python獲取網頁，操

Selenium學習三——利用Python爬取網頁表格資料並存到excel

利用Python爬取網頁表格資料並存到excel 1、具體要求：讀取教務系統上自己的成績單，並儲存到本地的excel中 2、技術要求：利用Selenium+Python獲取網頁，自動登陸並操作到成績單頁面通過xlwt模組，將表格儲存到本地excel （其中xlwt

利用python爬取網頁圖片

學習python爬取網頁圖片的時候，可以通過這個工具去批量下載你想要的圖片開始正題：我從尤物網去爬取我喜歡的女神的寫真照，我們這裡主要用到的就兩個模組 re和urllib模組，有的時候可能會用

利用Python爬取了1600個崗位！原來一個程式設計師的年薪可以這麼高！

Python學了這麼久，相信很多小夥伴都想知道錢途如何，全國各大城市招聘Python的崗位有多少，都招哪些職位，年薪如何等等，我爬取了拉勾近1600個Python相關的職位，我們用資料說話！進群：548377875 即可獲取數十套PDF哦！ &nb

利用python爬取實習僧網站上的資料

最近在找實習，就順便想到用python爬取一些職位資訊看看，有哪些崗位比較缺人。 #_*_coding:utf-8_*_ import requests from bs4 import BeautifulSoup import xlwt import r

Python爬蟲系列之四：利用Python爬取PyODPS頁面並整合成PDF文件

文章架構開發場景在日常開發過程中，經常需要參考一些文件。對於線上文件，往往由於網速等原因，用起來總不是那麼（ma）順（fan）心。開發工具 Anaconda Python 2 實現方案基於 bs4 模組標籤解析爬取

利用python爬取龍虎榜數據及後續分析

登錄 one 可能股市 .com 爬蟲但我由於相關 ##之前已經有很多人寫過相關內容，但我之前並未閱讀過，這個爬蟲也是按照自己的思路寫的，可能比較醜陋，請見諒！本人作為Python爬蟲新手和股市韭菜，由於時間原因每晚沒辦法一個個翻龍虎榜數據，所以希望借助爬蟲篩選出

python爬取網頁圖片

ima com col list https pytho 表達式 images 5% 在Python中使用正則表達式，一個小小的爬蟲，抓取百科詞條網頁的jpg圖片。下面就是我的代碼，作為參考： #coding=utf-8 # __author__ = ‘Hinfa‘ im

【學習筆記】python爬取百度真實url

python 今天跑個腳本需要一堆測試的url，，，挨個找復制粘貼肯定不是程序員的風格，so，還是寫個腳本吧。環境：python2.7 編輯器：sublime text 3 一、分析一下首先非常感謝百度大佬的url分類非常整齊，都在一個

利用python爬取點小圖片，滿足私欲(爬蟲)

.text write ret append jpg use download div pat import requestsimport reimport os,syslinks=[]titles=[] headers = { "User-Agent": "Mozi

利用python爬取糗事百科的用戶及段子

我們什麽 roo urlopen gen 文件 addheader find 正則匹配最近正在學習python爬蟲，爬蟲可以做很多有趣的事，本文利用python爬蟲來爬取糗事百科的用戶以及段子，我們需要利用python獲取糗事百科一個頁面的用戶以及段子，就需要匹配兩次，

利用Python爬取可用的代理IP

strip() color 地址 read main urn try exc head 前言就以最近發現的一個免費代理IP網站為例：http://www.xicidaili.com/nn/。在使用的時候發現很多IP都用不了。所以用Python寫了個腳本，該腳本可以把能用

Python爬蟲案例：利用Python爬取笑話網

htm 分享 targe pen 技術分享搞笑 lan tle import 學校的服務器可以上外網了，所以打算寫一個自動爬取笑話並發到bbs的東西，從網上搜了一個笑話網站，感覺大部分還不太冷，html結構如下：可以看到，笑話的鏈接列表都在<div cla

沒有內涵段子可以刷了，利用Python爬取段友之家貼吧圖片和小視頻(含源碼)

python 興趣爬蟲職業由於最新的視頻整頓風波，內涵段子APP被迫關閉，廣大段友無家可歸，但是最近發現了一個“段友”的app，版本更新也挺快，正在號召廣大段友回家，如下圖，有興趣的可以下載看看（ps：我不是打廣告的，沒收廣告費的）同時，之前同事也發了一個貼吧的段子聚居地，客官稍等，馬

今天你教高考生一個裝逼神技！利用Python爬取歷年高考成績！

mongo tle one 展示 com .text color rep mon 2.爬取數據 1.獲取各省的分數線信息獲取各省份的鏈接： # 獲取分數線 def get_score(url): web_data = requests.get(url, hea

利用Python爬取幾百萬github數據！這些源碼都是我的囊中之物！

.py .com exchange 非阻塞問題判斷 recursion 異步調用 direct 進群：548377875 即可獲取數十套PDF哦！看到這麽簡單的流程，內心的第一想法就是先簡單的寫一個遞歸實現唄，要是性能差再慢慢優化，所以第一

最後輕松一夏，周末利用python爬取“陳翔六點半”搞笑視頻！

多看獲取數據也會程序員 copy 是什麽查看 ima 周末覺得程序員再忙也需要給自己安排一點娛樂時間，對自己好點，自己對自己不好，誰會？自己娛樂一般會有：跑步、看電影、小視頻，而小視頻是最家常的娛樂方式，看得最多的小視頻是「陳翔六點半」，咦！拍得搞笑

Python 爬取網頁中JavaScript動態添加的內容（二）

python tab sta exe div int rom ava script 使用 selenium + phantomjs 實現 1、準備環境 selenium（一個用於web應用程測試的工具）安裝：pip install seleniumphantomjs（是

Java爬蟲學習《一、爬取網頁URL》

導包，如果是用的maven，新增依賴： <dependency> <groupId>commons-httpclient</groupId> <artifactId>commons

利用Python爬取500萬以上的國產自拍小電影哦！

宣告：本專案旨在學習Scrapy爬蟲框架和MongoDB資料庫，不可使用於商業和個人其他意圖。若使用不當，均由個人承擔。 PornHubBot PornHubBot專案主要是爬取全球最大的小電影網站PornHub的視訊標題、時長、mp4連結、封

Selenium學習四——利用Python爬取網頁多個頁面的表格資料並存到已有的excel中

相關推薦