Python爬蟲 -下載百度貼吧圖片

阿新 • • 發佈：2018-12-12

先放上程式的程式碼

import urllib.request
import os
import easygui as g
import re


def url_open(url):
    req = urllib.request.Request(url)
    req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36')
    response = urllib.request.urlopen(req)
    html = response.read()

    return html



def find_imgspath(url):
    html = url_open(url).decode('utf-8')
    img_addrs = re.findall(r'http://imgsrc.baidu.com/forum/w%3D580/sign=.+?.jpg', html)
    img_addrs2 = re.findall(r'https://imgsa.baidu.com/forum/w%3D580/sign=.+?.jpg', html)
    img_addrs.extend(img_addrs2)
    #print(img_addrs)
    return (img_addrs)


def save_imgs(folder, img_addrs):
    for each in img_addrs:
        filename = each.split('/')[-1]
        with open(filename, 'wb') as f:
            img = url_open(each)
            f.write(img)


def download(url, folder, pages):
    os.chdir(folder)

    url = url + "?pn="

    for i in range(int(pages[0]), int(pages[1])+1):
        page_url = url + str(i)
        #print(page_url)
        img_addrs = find_imgspath(page_url)
        save_imgs(folder, img_addrs)


if __name__ == '__main__':
    url = g.enterbox(msg='       請輸入要下載的帖子的地址如： \n https://tieba.baidu.com/p/4693512264', title='貼吧帖子圖片下載工具')
    page_num = g.multenterbox(msg='輸入要下載的頁數區間', title='', fields=['起始頁', '終止頁'])
    upath = g.diropenbox('請選擇需要儲存的資料夾')
    download(url, upath, page_num)

程式用easygui編寫了簡單的圖形介面在介面輸入相關資訊後，資料傳入download函式進行處理，download將傳過來的貼吧連結進行加工變成新的連結傳入find_imgspath函式，在此函式中，會對原始碼中的圖片地址進行篩選。

    img_addrs = re.findall(r'http://imgsrc.baidu.com/forum/w%3D580/sign=.+?.jpg', html)
    img_addrs2 = re.findall(r'https://imgsa.baidu.com/forum/w%3D580/sign=.+?.jpg', html)

根據分析連結中圖片地址為以上兩種（僅找到兩種），此處應用了正則表示式來進行地址查詢，將查詢後的地址已陣列的形式傳遞給save_imgs進行下載。

url_open 為開啟連結的函式，使用req.add_header，將User-Agent修改成瀏覽器的樣子。

就是這樣，程式非常簡單，但是對於我這段時間學習python來說，自己很有成就感，程式也有很多沒考慮到的地方，以後繼續學習，努力改善吧。

發個牢騷，記錄一下生活

哎，最近開始畢業找工作，好難?

上一次寫類似的東西應該是在七八年前的QQ空間吧，紀念一下。

Python爬蟲 -下載百度貼吧圖片

先放上程式的程式碼 import urllib.request import os import easygui as g import re def url_open(url): req = urllib.request.Request(url)

Python爬取百度貼吧圖片指令碼

新手，以下是爬取百度貼吧制定帖子的圖片指令碼，因為指令碼主要是解析html程式碼，因此一旦百度修改頁面前端程式碼，那麼指令碼會失效，權當爬蟲入門練習吧，後續還會嘗試更多的爬蟲。 # coding=ut

Python爬蟲之百度貼吧

目標： 1、對百度貼吧的任意帖子進行爬取 2、爬取帖子指定內容 3、將爬取內容儲存到檔案 1、分析url https://tieba.baidu.com/p/3138733512?se

Python實現簡單爬蟲功能--批量下載百度貼吧裡的圖片

在上網瀏覽網頁的時候，經常會看到一些好看的圖片，我們就希望把這些圖片儲存下載，或者使用者用來做桌面桌布，或者用來做設計的素材。　　我們最常規的做法就是通過滑鼠右鍵，選擇另存為。但有些圖片滑鼠右鍵的時候並沒有另存為選項，還有辦法就通過就是通過截圖工具擷取下來，但這樣就降低圖片的清晰度

Python簡易爬蟲爬取百度貼吧圖片

decode works 接口 def 讀取 min baidu 得到 internal 　　　　　通過python 來實現這樣一個簡單的爬蟲功能，把我們想要的圖片爬取到本地。(Python版本為3.6.0) 一.獲取整個頁面數據　　 def getHtml(url)

python百度貼吧圖片下載指令碼例項

功能介紹：對百度貼吧內的圖片進行下載； python版本： python2.7 用到的庫: urllib,requests 核心原理使用urllib庫爬取貼吧頁面的圖片連結，將其進行下載；requests用於獲取當前訪問頁面返回狀態碼； urllib.ur

實戰python 爬蟲爬取百度貼吧圖片

#!/usr/bin/python import urllib,urllib2import re def getHtml(url): page = urllib2.urlopen(url) return page.read() def getImage(html): re_img = re.compil

python爬蟲，獲取百度貼吧圖片

直接上程式碼： #!/usr/bin/env python # -*- coding:utf-8 -*- import urllib import urllib2 from lxml import etree def loadPage(url):

簡單爬蟲，爬去百度貼吧圖片

思路： 1.根據初始url獲取網頁內容 2.根據網頁內容獲取總頁數及所有頁面的url 3.根據每頁的url，將網頁下載到本地 4.讀取本地檔案從檔案中解析出所有的jpg圖片的url 5.用圖片的url下載圖片並儲存成指定的資料夾 6.批量下載圖片，預設儲存到當前目錄下 7

Python爬取百度貼吧的圖片

Python是一個弱型別的動態語言下面是我的第一個簡單的爬蟲指令碼程式 #coding=gbk #匯入re和urlLib兩個庫 import re import urllib #定義一個有參的獲得圖片的方法,方法名為getImg def getImg(url):

網路爬蟲簡單的實現爬取百度貼吧圖片

我們要爬取的網站是https://tieba.baidu.com/p/3797994694 首先爬取第一頁的圖片，使用python3自帶庫urllib，詳細的程式碼如下：接下來爬去多頁的圖片，這裡我們選取五頁的圖片，這裡我們採用requests，beautifuls

Python爬取百度貼吧數據

utf-8 支持我 family encode code word keyword 上一條時間　　本渣除了工作外，在生活上還是有些愛好，有些東西，一旦染上，就無法自拔，無法上岸，從此走上一條不歸路。花鳥魚蟲便是我堅持了數十年的愛好。　　本渣還是需要上班，才能支持我的

爬蟲10-百度貼吧

""" __title__ = '' __author__ = 'Thompson' __mtime__ = '2018/8/21' # code is far away from bugs with the god animal protecting I love animals. The

python爬取百度貼吧指定內容

環境:python3.6 1：抓取百度貼吧—linux吧內容基礎版抓取一頁指定內容並寫入檔案萌新剛學習Python爬蟲,做個練習貼吧連結: http://tieba.baidu.com/f?kw=linux&ie=utf-8&pn=0 解析原始碼使用的是B

XPath：爬取百度貼吧圖片，並儲存本地

使用XPath，我們可以先將 HTML檔案轉換成 XML文件，然後用 XPath 查詢 HTML 節點或元素。什麼是XML XML 指可擴充套件標記語言（EXtensible Markup

爬取百度貼吧圖片

本次文章內容是爬取貼吧圖片，希望對大家有所幫助使用環境：我用的是python2.7.9 在Python 3以後的版本中，urllib2這個模組已經不單獨存在（也就是說當你import urllib2時，系統提示你沒這個模組），urllib2被合併到了urllib中。 url

百度貼吧圖片爬取

直接上程式碼： # -*- coding:utf-8 -*- from lxml import etree import requests class TiebaSpider(object): def __init__(self, tieba_name, begin_page, e

【Python3爬蟲】百度貼吧爬蟲

1 import requests 2 import time 3 import re 4 from selenium import webdriver 5 6 headers = { 7 "user-agent": "Mozilla/5.0 (Windows NT 6.

Python爬取百度貼吧標題

# -*- coding: utf-8 -*- """ Created on Sun Nov 4 10:22:07 2018 @author: wangf """ from urllib.request import urlopen import codecs from

Python爬蟲__爬取貼吧圖片和文字

1. 爬取圖片 1.1 前言我當年年少，還不知道爬蟲這個東西，又想把書法圖片儲存下來，於是一張張地把圖片另存為，現在用爬蟲來爬取每一樓的書法圖片，解放一下人力： 1.2 爬取圖片的流程可以總結如下： 1)爬取網頁的ht

Python爬蟲 -下載百度貼吧圖片

相關推薦