Python - 抓取豆列

阿新 • • 發佈：2018-05-25

nco style user != 收藏 day TP lis paginator

將豆列導出為 Markdown 文件。

#!/usr/bin/env python
#! encoding=utf-8

# Description   : 將豆列導出為 Markdown 文件. 
# Version       : 1.0.0.0
# Python Version: Python 2.7.3
#

import os
import threading
import time
import datetime
import re
import string
import urllib2
import timeit
from bs4 import BeautifulSoup

gHeader = 
 {"User-Agent": "Mozilla-Firefox5.0"}

# 書籍信息類
class BookInfo:
    name = ‘‘
    url = ‘‘
    icon = ‘‘
    ratingNum = 0.0
    ratingPeople = 0
    comment = ‘‘

    def __init__(self, name, url, icon, nums, people, comment):
        self.name = name
        self.url = url
        self.icon = icon
        self 
.ratingNum = nums
        self.ratingPeople = people
        self.comment = comment 

# 獲取 url 內容
def getHtml(url):
    try :
        request = urllib2.Request(url, None, gHeader)
        response = urllib2.urlopen(request)
        data = response.read().decode(‘utf-8‘)
    except urllib2.URLError, e :
        if 
 hasattr(e, "code"):
            print "The server couldn‘t fulfill the request: " + url
            print "Error code: %s" % e.code
        elif hasattr(e, "reason"):
            print "We failed to reach a server. Please check your url: " + url + ", and read the Reason."
            print "Reason: %s" % e.reason
    return data

# 導出為 Markdown 格式文件
def exportToMarkdown(doulistTile, doulistAbout, bookInfos):
    path = "{0}.md".format(doulistTile)
    if(os.path.isfile(path)):
        os.remove(path)

    today = datetime.datetime.now()
    todayStr = today.strftime(‘%Y-%m-%d %H:%M:%S %z‘)
    file = open(path, ‘a‘)
    file.write(‘## {0}\n‘.format(doulistTile))
    file.write(‘{0}\n‘.format(doulistAbout))
    file.write(‘## 圖書列表\n‘)
    file.write(‘### 收藏添加順序，非排名，總計 {0} 本，更新時間：{1}\n‘.format(len(bookInfos), todayStr))
    i = 0
    
    
    for book in bookInfos:
        file.write(‘\n### No.{0:d} {1}\n‘.format(i + 1, book.name))
        file.write(‘ > **圖書名稱**： [{0}]({1})  \n‘.format(book.name, book.icon))
        file.write(‘ > **豆瓣鏈接**： [{0}]({1})  \n‘.format(book.url, book.url))
        file.write(‘ > **豆瓣評分**： {0}  \n‘.format(book.ratingNum))
        file.write(‘ > **評分人數**： {0} 人 \n‘.format(book.ratingPeople))
        file.write(‘ > **我的評論**： {0}  \n‘.format(book.comment))
        i = i + 1
    
    ‘‘‘
    file.write(‘<style>a img {border: none;width: 127px;height:76px;overflow:hidden;}.article-entry img, .article-entry video {display: block;height: 110px;margin: auto;max-width: 100%;}</style>\n‘)
    file.write(‘{% stream %}\n‘)
    for book in bookInfos:
        file.write(‘{% figure ‘ + book.icon + ‘ [‘ + book.name + ‘](‘ + book.icon + ‘) %}\n‘)
        #file.write(‘{% figure ‘ + book.icon + ‘ [ No.‘ + str((i+1)) + ‘](‘ + book.icon + ‘) %}\n‘)
        i = i + 1

    file.write(‘{% endstream %}\n‘)
    file.write(‘<style>div.hexo-img-stream figure figcaption {font-size: .9rem;color: #444;line-height: 1.5;overflow: hidden;text-overflow: ellipsis;white-space: nowrap;max-width: 127px;}</style>\n‘)
    ‘‘‘    
    file.close()

# 解析圖書信息
def parseItemInfo(page, bookInfos):
    soup = BeautifulSoup(page, ‘html.parser‘)
    items = soup.find_all("div", "doulist-item")
    for item in items:
        #print item.prettify().encode(‘utf-8‘)

        # get book name
        bookName = ‘‘
        content = item.find("div", "title")
        if content != None:
            href = content.find("a")
            if href != None and href.string != None:
                bookName = href.string.strip().encode(‘utf-8‘)
        #print " > name: {0}".format(bookName)

        # get book url and icon
        bookUrl = ‘‘
        bookImage = ‘‘
        content = item.find("div", "post")
        if content != None:
            tag = content.find(‘a‘)
            if tag != None:
                bookUrl = tag[‘href‘].encode(‘utf-8‘)
            tag = content.find(‘img‘)
            if tag != None:
                bookImage = tag[‘src‘].encode(‘utf-8‘)
        #print " > url: {0}, image: {1}".format(bookUrl, bookImage)


        # get rating
        ratingNum = 0.0
        ratingPeople = 0
        contents = item.find("div", "rating")

        if content is None:
            continue

        for content in contents:
            if content.name != None and content.string != None:
                if content.get("class") != None:
                    ratingStr = content.string.strip().encode(‘utf-8‘)
                    if len(ratingStr) > 0:
                        ratingNum = float(ratingStr)
                else:
                    ratingStr = content.string.strip().encode(‘utf-8‘)
                    pattern = re.compile(r‘(\()([0-9]*)(.*)(\))‘)
                    match = pattern.search(ratingStr)
                    if match:
                        ratingStr = match.group(2).strip()
                        if len(ratingStr) > 0:
                            ratingPeople = int(ratingStr)
        #print " > ratingNum: {0}, ratingPeople: {1}".format(ratingNum, ratingPeople)

        # get comment
        comment = ‘‘
        content = item.find("blockquote", "comment")
        if content != None:
            for child in content.contents:
                if child.name == None and child.string != None:
                    comment = child.string.strip().encode(‘utf-8‘)
        #print " > comment: {0}".format(comment)

        # add book info to list
        bookInfo = BookInfo(bookName, bookUrl, bookImage, ratingNum, ratingPeople, comment)
        bookInfos.append(bookInfo)

# 解析豆列 url
def parse(url):
    start = timeit.default_timer()

    page = getHtml(url)
    soup = BeautifulSoup(page, ‘html.parser‘)

    # get doulist title
    doulistTile = soup.html.head.title.string.encode(‘utf-8‘)
    print " > 獲取豆列：" + doulistTile

    # get doulist about
    doulistAbout = ‘‘
    content = soup.find("div", "doulist-about")
    for child in content.children:
        if child.string != None:
            htmlContent = child.string.strip().encode(‘utf-8‘)
            doulistAbout = "{0}\n{1}".format(doulistAbout, htmlContent)
    #print "doulist about:" + doulistAbout


    # get page urls
    pageUrls = []

    nextPageStart = 100000
    lastPageStart = 0
    content = soup.find("div", "paginator")
    for child in content.children:
        if child.name == ‘a‘:
            pattern = re.compile(r‘(start=)([0-9]*)(.*)(&sort=)‘)
            match = pattern.search(child[‘href‘].encode(‘utf-8‘))
            if match:
                index = int(match.group(2))
                if nextPageStart > index:
                    nextPageStart = index
                if lastPageStart < index:
                    lastPageStart = index

    books = []

    # get books from current page
    print ‘ > process page :  {0}‘.format(url)
    parseItemInfo(page, books)

    # get books from follow pages
    for pageStart in range(nextPageStart, lastPageStart + nextPageStart, nextPageStart):
        pageUrl = "{0}?start={1:d}&sort=seq&sub_type=".format(url, pageStart)
        print ‘ > process page :  {0}‘.format(pageUrl)
        page = getHtml(pageUrl)
        if page is not None:
            parseItemInfo(page, books)

    # export to markdown file
    exportToMarkdown(doulistTile, doulistAbout, books)

    # summrise
    total = len(books)
    elapsed = timeit.default_timer() - start
    print " > 共獲取 {0} 本圖書信息，耗時 {1} 秒".format(total, elapsed)

#=============================================================================
# 程序入口：抓取指定指定豆列的書籍
#=============================================================================
gDoulistUrl = "https://www.douban.com/doulist/1264675/"

if __name__ == ‘__main__‘: 
    parse(gDoulistUrl)

Python - 抓取豆列

nco style user != 收藏 day TP lis paginator 將豆列導出為 Markdown 文件。 #!/usr/bin/env python #! encoding=utf-8 # Description : 將豆列導出為 Markdown

Python抓取學院新聞報告

滿足 imp 實驗源代碼 ges tail view paste rom Python案例 scrapy抓取學院新聞報告任務抓取四川大學公共管理學院官網(http://ggglxy.scu.edu.cn)所有的新聞咨詢. 實驗流程 1.確定抓取目標.2.制定抓取規則.

python抓取

info 奧巴馬 www word ref str source div term 我要抓取奧巴馬每周的演講內容http://www.putclub.com/html/radio/VOA/presidentspeech/index.html 如果手動提取，就需要一個個點進去

python抓取bing主頁背景圖片

replace utf bytes for json格式 module imp urlopen 有變最初Python2寫法： #!/usr/bin/env python # -*- coding:utf-8 -*- # -*- author:nancy -*- # pyt

無比強大！Python抓取cssmoban站點的模版並下載

jea blank file timeout 全局 -- 文件的 pre target Python實現抓取http://www.cssmoban.com/cssthemes站點的模版並下載實現代碼 # -*- coding: utf-8 -*- im

Python抓取手機APP中內容

quest 手機app 開始 clas tex json 完成 keep 抓取首先下載Wireshark和模擬器（天天模擬器，夜神模擬器），天天模擬器在自帶的應用商店裏面能夠登錄微信。然後打開Wireshark選擇一個網卡開始抓包。開始抓包後，在模擬器中要抓取的APP

python 抓取cisco交換機配置文件

cal pytho quit sys led ... eof tex passwd #!/usr/bin/python import sys import time import os import pexpect now = time.strftime(‘%Y-%

用python 抓取B站視頻評論，制作詞雲

port mil query 雲圖 ges cal 爬取 close hid python 作為爬蟲利器，與其有很多強大的第三方庫是分不開的，今天說的爬取B站的視頻評論，其實重點在分析得到的評論化作嵌套的字典，在其中取出想要的內容。層層嵌套，眼花繚亂，分析時應細致！步驟分為

Python抓取數據的幾種方式

cnblogs 方式 edit api lencod nco financial 取數 .org import urllib.requestresponse = urllib.request.urlopen(‘http://python.org/‘)html = res

python 抓取電影天堂電影信息放入數據庫

python mysql 電影 # coding:utf-8 import requests from bs4 import BeautifulSoup from multiprocessing import Pool import urllib2 import re import json im

python 抓取"一個"網站文章信息放入數據庫

python 文章爬蟲 # coding:utf-8 import requests from bs4 import BeautifulSoup import json import time import datetime import pymysql import sys reload(sy

python 抓取內涵段子

爬蟲#!/usr/bin/env python #coding:utf-8 import requests,io,time from bs4 import BeautifulSoup def neihanjoke(): headers = { 'Accept':

Python抓取遠程文件獲取真實文件名

pen AR name position 遠程文件 head con get log 用urllib下載遠程文件並轉存到hdfs服務器，在下載時，下載地址中不一定包含文件名，需要從連接信息中獲取。 1 file_url = request.form.get(

python: 抓取免費代理ip

python 抓取免費代理ip通過抓取西刺網免費代理ip實現代理爬蟲： from bs4 import BeautifulSoup import requests import random import telnetlib requests = requests.session() ip_list = []