知乎爬蟲之爬取專欄資訊

阿新 • • 發佈：2019-01-24

接著昨天的模擬登陸，今天來爬取一下專欄資訊
我們將對專欄https://zhuanlan.zhihu.com/Entertainmentlaw進行抓取
首先還是進行抓包分析，可以發現這裡有我們想要的專欄的名稱，作者，關注人數等資訊

然後我們看一下訊息頭，看一下請求的URL和請求頭
這裡寫圖片描述
然後就可以編寫程式碼了

# -*- coding:utf-8 -*-
__author__="weikairen"

import  requests
from bs4 import  BeautifulSoup
import  time

BASE_URL='https://www.zhihu.com/' 

LOGIN_URL=BASE_URL+'login/phone_num'
CAPTCHA_URL=BASE_URL+'captcha.gif?r='+str(int(time.time())*1000)+'&type=login'

BLOGS_BASE_URL='https://zhuanlan.zhihu.com/Entertainmentlaw'
BLOGS_API_URL='https://zhuanlan.zhihu.com/api/columns/Entertainmentlaw'

session = requests.session()    #session建立為全域性變數是為了能在不同的函式中使用一個相同的session 

#在登入過後 session會儲存伺服器返回的cookie，爬取專欄資訊的時候用這個session，伺服器就會認為你已經登入，就不會拒絕你的請求了

def login():
    headers={
        'host':'www.zhihu.com',
        'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:48.0) Gecko/20100101 Firefox/48.0',
        'referer':"https://www.zhihu.com/",
        'X - Requested - With': "XMLHttpRequest" 

    }                                                      #構造請求頭，講它偽裝成為瀏覽器
    captcha_content=requests.get(CAPTCHA_URL,headers=headers).content
    with open('C:\cap.gif','wb') as cap:              #將驗證碼圖片下載下來儲存到C盤的根目錄下面
        cap.write(captcha_content)
    captcha=input('請輸入驗證碼: ')
    data={
        '_xsrf': "94b6a3f4ba711971716bd8b863d9c91c",
        'password': "******",
        'captcha_type': "cn",
        'remember_me': "true",
        'phone_num': "********"
    }

    response=session.post(LOGIN_URL,data=data,headers=headers)
    print(response.json()['msg'])

def blogs():
    headers = {
        'host': "zhuanlan.zhihu.com",
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:48.0) Gecko/20100101 Firefox/48.0',
        'referer': "https://zhuanlan.zhihu.com/Entertainmentlaw"
    }
    #session.headers.update(headers)
    response = session.get(BLOGS_API_URL,headers=headers).json()

    print(response)
    print('專欄名稱：'+response['name'])
    print('專欄介紹：' + response['intro'])
    print('專欄作者：' + response['creator']['name'])
    print('專欄作者主頁：' + response['creator']['profileUrl'])
    print('專欄關注人數：' + str(response['followersCount']))

login()
blogs()

執行就可以看見結果了
這裡寫圖片描述

好的，下面我們看一下程式碼，程式碼中帶有註釋

# -*- coding:utf-8 -*-
__author__="weikairen"

import  requests
from bs4 import  BeautifulSoup
import  time

BASE_URL='https://www.zhihu.com/'
LOGIN_URL=BASE_URL+'login/phone_num'
CAPTCHA_URL=BASE_URL+'captcha.gif?r='+str(int(time.time())*1000)+'&type=login'

BLOGS_BASE_URL='https://zhuanlan.zhihu.com/Entertainmentlaw'            #專欄地址
BLOGS_API_URL='https://zhuanlan.zhihu.com/api/columns/Entertainmentlaw' #專欄資訊地址，如關注數
BLOGS_URL='https://zhuanlan.zhihu.com/api/columns/Entertainmentlaw/posts?limit=20&offset='#專欄文章的請求構造地址

session = requests.session()    #session建立為全域性變數是為了能在不同的函式中使用一個相同的session
#在登入過後 session會儲存伺服器返回的cookie，爬取專欄資訊的時候用這個session，伺服器就會認為你已經登入，就不會拒絕你的請求了

def login():
    headers={
        'host':'www.zhihu.com',
        'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:48.0) Gecko/20100101 Firefox/48.0',
        'referer':"https://www.zhihu.com/",
        'X - Requested - With': "XMLHttpRequest"
    }                                                      #構造請求頭，講它偽裝成為瀏覽器
    captcha_content=requests.get(CAPTCHA_URL,headers=headers).content
    with open('C:\cap.gif','wb') as cap:              #將驗證碼圖片下載下來儲存到C盤的根目錄下面
        cap.write(captcha_content)
    captcha=input('請輸入驗證碼: ')
    data={
        '_xsrf': "94b6a3f4ba711971716bd8b863d9c91c",
        'password': "********",
        'captcha_type': "cn",
        'remember_me': "true",
        'phone_num': "********"
    }

    response=session.post(LOGIN_URL,data=data,headers=headers)
    print(response.json()['msg'])

def blogs():
    headers = {
        'host': "zhuanlan.zhihu.com",
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:48.0) Gecko/20100101 Firefox/48.0',
        'referer': "https://zhuanlan.zhihu.com/Entertainmentlaw"
    }
    #session.headers.update(headers)
    response = session.get(BLOGS_API_URL,headers=headers).json()

    print(response)
    print('專欄名稱：'+response['name'])
    print('專欄介紹：' + response['intro'])
    print('專欄作者：' + response['creator']['name'])
    print('專欄作者主頁：' + response['creator']['profileUrl'])
    print('專欄關注人數：' + str(response['followersCount']))

    blogIndex=0
    end=0
    while not (end):
        response=session.get(BLOGS_URL+str(blogIndex),headers=headers).json()
        for blog in response:
            #print('文章序號：'+str(blogId))
            print('文章名稱：'+blog['title'])
            print('文章作者：' + blog['author']['name'])
            print('傳送時間：' + blog['publishedTime'])
            print('文章連結：' +BLOGS_BASE_URL+ blog['url'])

        if len(response)<20:
            end=1

        blogIndex += 20



login()
blogs()

結果如下：
這裡寫圖片描述

每天進步一點點

知乎爬蟲之爬取專欄資訊

接著昨天的模擬登陸，今天來爬取一下專欄資訊我們將對專欄https://zhuanlan.zhihu.com/Entertainmentlaw進行抓取首先還是進行抓包分析，可以發現這裡有我們想要的專欄的名稱，作者，關注人數等資訊然後我們看一下訊息頭

Python爬蟲之爬取知乎帖子並儲存到mysql（以及遇到問題和解決方法）

爬取問題標題並儲存到資料庫：程式碼： # coding=utf-8 import urllib import urllib2 import re import MySQLdb #co

PHP爬蟲：百萬級別知乎使用者資料爬取與分析

這次抓取了110萬的使用者資料，資料分析結果如下：開發前的準備安裝Linux系統（Ubuntu14.04），在VMWare虛擬機器下安裝一個Ubuntu；安裝PHP5.6或以上版本；安裝MySQL5.5或以上版本；安裝curl、pcntl擴充套件。使

Python爬蟲之爬取瓜子二手車資訊- requests方法

最近在做二手車市場資料分析，試著爬取瓜子二手車在售車輛資訊，做一下記錄大致思路如下： 2、從a連結頁面獲取每輛車詳情頁的連結b 3、進入b抓取我需要的車輛資訊： car_model = Field() # 車型資訊 registe

Python爬蟲新手教程：知乎文章圖片爬取器

1. 知乎文章圖片爬取器之二部落格背景昨天寫了知乎文章圖片爬取器的一部分程式碼，針對知乎問題的答案json進行了資料抓取，部落格

Python爬蟲之爬取煎蛋網妹子圖

創建目錄 req add 註意 not 相同 esp mpi python3 這篇文章通過簡單的Python爬蟲（未使用框架，僅供娛樂）獲取並下載煎蛋網妹子圖指定頁面或全部圖片，並將圖片下載到磁盤。首先導入模塊：urllib.request、re、os import

小白scrapy爬蟲之爬取簡書網頁並下載對應鏈接內容

tps python 分享列表 scrapy 網頁 pytho 分享圖片介紹 *準備工作：爬取的網址：https://www.jianshu.com/p/7353375213ab 爬取的內容：下圖中python庫介紹的內容列表，並將其鏈接的文章內容寫進文本文件中小

python3 學習 3：python爬蟲之爬取動態載入的圖片，以百度圖片為例

轉： https://blog.csdn.net/qq_32166627/article/details/60882964 前言：前面我們爬取圖片的網站都是靜態的，在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後，再用bs4庫解析標籤即可儲存圖片

簡單爬蟲之爬取網站圖片

這裡選取的網址是 http://www.doutula.com 目的：爬取其中的圖片並且翻頁爬取首頁圖片的規則 <img src="https://ws3.sinaimg.cn/bmiddle/6af89bc8gw1f

菜鳥學爬蟲之爬取網易新聞

學習了python基本語法後，對爬蟲產生了很大的興趣，廢話不多說，今天來爬取網易新聞，實戰出真知。開啟網易新聞（https://news.163.com/）可以發現新聞分為這樣的幾個板塊：這次選擇國內板塊來爬取文章。 1.準備環境：python3 編譯器：PyChar

爬蟲之爬取豆瓣電影的名字

import requests #requests模組用於傳送HTTP請求 import json #json模組用於對JSON資料進行編解碼 #新建陣列用於存放多個電影資料 movielist=[] #瀏覽器演示json crawlSite="https://api.douba

爬蟲之爬取豆瓣熱門圖書的名字

描述調用過濾 content tex pl2 main from code import requests #requests模塊用於HTTP請求 import codecs #codecs模塊用於文件操作 from bs4 import BeautifulS

爬蟲之爬取豆瓣圖書的評論

pen 數據 app bs4 lis 爬取 fix replace sub from urllib import request from bs4 import BeautifulSoup as bs #爬取豆瓣最受關註圖書榜 resp = request.urlope

爬蟲之爬取豆瓣圖書名字及ID

for gettext char small print html_ 圖書 res span from urllib import request from bs4 import BeautifulSoup as bs #爬取豆瓣最受關註圖書榜 resp = reque

Python網路爬蟲之爬取淘寶網頁頁面 MOOC可以執行的程式碼

可以實現功能的全部程式碼： import requests import re def getHTMLText(url): try: r = requests.get(url, timeout = 30) r.raise_for_statu

Python知乎熱門話題爬取

本例子是參考崔老師的Python3網路爬蟲開發實戰寫的看網頁介面：熱門話題都在 explore-feed feed-item的div裡面原始碼如下： import requests from pyquery import PyQuery as pq url='https://www.

Python爬蟲之爬取各大幣交易網站公告——靜態網站.md

Python爬蟲之爬取各大幣交易網站公告——靜態網站瞭解爬蟲之後，我們也漸漸掌握了根據網站的種類選擇不同庫來對其進行處理，提取我們想要的東西。靜態網站，我們往往利用requests庫提取網站html資訊，再通過正則表示式或BeautifulSoup庫提取我們

Python網路爬蟲之抓取訂餐資訊

本文以大眾點評網為例，獲取頁面的餐館資訊，以達到練習使用python的目的。 1.抓取大眾點評網中關村附近的餐館有哪些 import urllib.request import re def fetchFood(url):

python初級實戰系列教程《一、爬蟲之爬取網頁、圖片、音視訊》

python基礎知識可以到廖雪峰大佬的官網學習哦！廖雪峰官網網址學完python就開始我們的實戰吧！首先我們就來學習下python爬蟲學習Python爬蟲，先是介紹一個最容易上手的庫urll

Python3.6--之爬取天氣資訊

1.工具用 Pycharm，Python3.6 2.在 Pycharm 中的Settings->Project:code->Project Interpreter點選右上角綠色’+’輸入requests和 BeautifulSoup選擇並安裝，Be

知乎爬蟲之爬取專欄資訊

相關推薦