Python爬蟲教程：爬取百度貼吧

阿新 • • 發佈：2018-12-11

貼吧爬取

寫程式碼前，構思需要的功能塊；寫程式碼時，把各個功能模組名提前寫好

初始化

初始化必要引數，完成基礎設定爬取百度貼吧lol吧：爬取地址中的get引數須傳遞(可以指定不同主題的貼吧和頁碼)

主題名
初始網址
請求頭

生成網址

生成每一頁的路由地址

根據列表生成式生成多個頁面的地址

下載

get請求給每一頁的地址，爬取頁面

儲存

儲存爬取結果到檔案中，把每一頁爬取結果寫入到對應名字的檔案中

控制流程

將以上爬取操作封裝到run函式中，方便外部物件呼叫，以後會在此新增多執行緒

生成要爬取的每一頁的路由地址
通過for迴圈遍歷每一個路由地址

對每個路由地址進行爬取和獲取頁碼操作，並進行儲存

原始碼

import requests

'''
有需要Python學習資料的小夥伴嗎?小編整理【一套Python資料、原始碼和PDF】，感興趣者可以加學習群：548377875，反正閒著也是閒著呢，不如學點東西啦~~
'''

class TiebaSpider:
    def __init__(self, tieba_name_crawl):
        """
        初始化必要引數，完成基礎設定
        爬取百度貼吧lol吧：爬取地址中的get引數須傳遞(可以指定不同主題的貼吧和頁碼)
        """
        self.tieba_name = tieba_name_crawl
        self.url_base = 'https://tieba.baidu.com/f?kw=' + tieba_name_crawl + '&ie=utf-8&pn={}'
        self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0'}

    def make_url(self):
        """
        生成每一頁的路由地址
        :return:(列表生成式)
        """
        return [self.url_base.format(i) for i in range(4)]

    def download_url(self, url_str):
        """
        get請求給每一頁的地址，爬取頁面
        :param url_str: 每一頁的路由地址
        :return: 爬取的結果
        """
        result = requests.get(url_str, headers=self.headers)
        return result.text

    def save_result(self, result, page_num):
        """
        儲存爬取結果到檔案中
        :param result: 每一頁的爬取結果
        :param page_num: 頁碼，方便分類儲存
        :return: 把每一頁爬取結果寫入到對應名字的檔案中
        """
        # with open('./download/lol' + str(page_num) + '.html', 'ab') as f:
        #     f.write(result.encode('utf-8'))
        file_path = './download/{}~第{}頁.html'.format(self.tieba_name,page_num)
        with open(file_path,'wb') as f:
            f.write(result.encode('utf-8'))

    def run(self):
        """
        將以上爬取操作封裝到run函式中，方便外部物件呼叫，以後會在此新增多執行緒
        · 生成要爬取的每一頁的路由地址
        · 通過for迴圈遍歷每一個路由地址
        · 對每個路由地址進行爬取和獲取頁碼操作，並進行儲存
        :return:
        """
        url_lists = self.make_url()
        for url_str in url_lists:
            result_str = self.download_url(url_str)
            p_num = url_lists.index(url_str) + 1
            self.save_result(result=result_str,page_num=p_num)

if __name__ == '__main__':
    tieba_spider = TiebaSpider('lol')
    tieba_spider.run()

Python爬蟲教程：爬取百度貼吧

貼吧爬取寫程式碼前，構思需要的功能塊；寫程式碼時，把各個功能模組名提前寫好初始化初始化必要引數，完成基礎設定爬取百度貼吧lol吧：爬取地址中的get引數須傳遞(可以指定不同主題的貼吧和頁碼) 主題名初始網址請求頭生成網址生成每一頁的路由

XPath：爬取百度貼吧圖片，並儲存本地

使用XPath，我們可以先將 HTML檔案轉換成 XML文件，然後用 XPath 查詢 HTML 節點或元素。什麼是XML XML 指可擴充套件標記語言（EXtensible Markup

Python簡易爬蟲爬取百度貼吧圖片

decode works 接口 def 讀取 min baidu 得到 internal 　　　　　通過python 來實現這樣一個簡單的爬蟲功能，把我們想要的圖片爬取到本地。(Python版本為3.6.0) 一.獲取整個頁面數據　　 def getHtml(url)

Python爬蟲實例（一）爬取百度貼吧帖子中的圖片

選擇圖片查看負責 targe mpat wid agent html headers 程序功能說明：爬取百度貼吧帖子中的圖片，用戶輸入貼吧名稱和要爬取的起始和終止頁數即可進行爬取。思路分析：一、指定貼吧url的獲取例如我們進入秦時明月吧，提取並分析其有效url如下

Python爬蟲-爬取百度貼吧

方法 eba style name urlopen for pri url pen 爬取百度貼吧 ===================== ===== 結果示例： ===================================== 1 ‘‘‘ 2 爬去百

Python爬蟲教程：爬取崗位分析報告

本篇以拉勾網為例來說明一下如何獲取 Ajax 請求內容本文目標獲取 Ajax 請求,解析 JSON 中所需欄位資料儲存到 Excel 中資料儲存到 MySQL, 方便分析簡單分析五個城市 Python 崗位平均薪資水平 Python 崗位要求學歷分佈

實戰python 爬蟲爬取百度貼吧圖片

#!/usr/bin/python import urllib,urllib2import re def getHtml(url): page = urllib2.urlopen(url) return page.read() def getImage(html): re_img = re.compil

python網路爬蟲學習(二)一個爬取百度貼吧的爬蟲程式

今天進一步學習了python網路爬蟲的知識，學會了寫一個簡單的爬蟲程式，用於爬取百度貼吧的網頁並儲存為HTML檔案。下面對我在實現這個功能時的程式碼以及所遇到的問題的記錄總結和反思。首先分析實現這個功能的具體思路: 通過對貼吧URL的觀察，可以看出貼吧中的

python爬蟲爬取百度貼吧（入門練習）

需求說明：從控制檯輸入指定爬取的貼吧名稱，起始頁面，結束頁面，並在檔案中建立以貼吧名稱+“爬取內容” 為名字建立檔案件，裡面的每一個檔案都是爬取到的每一頁html檔案，檔名稱：貼吧名稱_page.html import urllib.reque

Python爬蟲【實戰篇】百度貼吧爬取頁面存到本地

先上程式碼 import requests class TiebaSpider: def __init__(self, tieba_name): self.tieba_name = tieba_name self.url_temp = " htt

python爬蟲(13)爬取百度貼吧帖子

爬取百度貼吧帖子一開始只是在網上看到別人寫的爬取帖子的文章，然後自己就忍不住手癢自己鍛鍊一下，然後照著別人的寫完，發現不太過癮，畢竟只是獲取單個帖子的內容，感覺內容稍顯單薄，然後自己重新做了修改，把它變成重寫成了一個比較強大的爬蟲精簡版本簡介通過帖子的地址，獲

python爬蟲系列之爬取百度文庫（一）

一、什麼是selenium 在爬取百度文庫的過程中，我們需要使用到一個工具selenium（瀏覽器自動測試框架），selenium是一個用於web應用程式測試的工具，它可以測試直接執行在瀏覽器中，就像我們平時用瀏覽器上網一樣，支援IE(7，8，9，10，11),firefo

Python爬蟲例項--爬取百度貼吧小說

Python爬蟲例項–爬取百度貼吧小說寫在前面本篇文章是我在簡書上寫的第一篇技術文章，作為一個理科生，能把僅剩的一點文筆拿出來獻醜已是不易，希望大家能在指教我的同時給予我一點點鼓勵，謝謝。一.介紹小說吧：顧名思義，是一個小說

Python爬取百度貼吧數據

utf-8 支持我 family encode code word keyword 上一條時間　　本渣除了工作外，在生活上還是有些愛好，有些東西，一旦染上，就無法自拔，無法上岸，從此走上一條不歸路。花鳥魚蟲便是我堅持了數十年的愛好。　　本渣還是需要上班，才能支持我的

完整的爬蟲程序爬取百度貼吧的圖片

列表文檔 for tieba http ... 自增 num 圖片 #!/usr/bin/env python#-- coding:utf-8 -- import osimport urllibimport urllib2from lxml import etree cl

python爬取百度貼吧指定內容

環境:python3.6 1：抓取百度貼吧—linux吧內容基礎版抓取一頁指定內容並寫入檔案萌新剛學習Python爬蟲,做個練習貼吧連結: http://tieba.baidu.com/f?kw=linux&ie=utf-8&pn=0 解析原始碼使用的是B

PHP爬蟲-爬取百度貼吧首頁違規主題貼

因為是第一次寫，感覺有點冗餘。不過嘛，本文章主要面向不知道爬蟲為何物的小夥伴。o(∩_∩)o <?php $url='http://tieba.baidu.com/f?ie=utf-8&kw=php&fr=search'; // 地址 $html = file_ge

Python爬取百度貼吧標題

# -*- coding: utf-8 -*- """ Created on Sun Nov 4 10:22:07 2018 @author: wangf """ from urllib.request import urlopen import codecs from

Python爬取百度貼吧圖片指令碼

新手，以下是爬取百度貼吧制定帖子的圖片指令碼，因為指令碼主要是解析html程式碼，因此一旦百度修改頁面前端程式碼，那麼指令碼會失效，權當爬蟲入門練習吧，後續還會嘗試更多的爬蟲。 # coding=ut

Python爬取百度貼吧回帖中的微訊號（基於簡單http請求）

作者：草小誠轉載請注原文地址：https://blog.csdn.net/cxcjoker7894/article/details/85685115 前些日子媳婦兒有個需求，想要一個任意貼吧近期主題帖的所有回帖中的微訊號，用來做一些微商的操作，你懂的。因為有些貼吧專門就是

Python爬蟲教程：爬取百度貼吧

貼吧爬取

初始化

生成網址

下載

儲存

控制流程

原始碼

相關推薦