爬蟲之字型反爬（三）汽車之家

阿新 • • 發佈：2019-01-11

今天為大家帶來的是字型反爬的另一個案例，汽車之家。與之前不同的是，這裡是對漢字的處理。具體來看下面的分析與程式碼。

首先參考的網站：https://club.autohome.com.cn/bbs/thread/1f05b4da4448439b/76044817-1.html#%23%23

從網站中可以觀察到，它的反爬是這樣的：

再從網頁原始碼中觀察，發現又是這樣的：

尋找它的字型檔案：

下載儲存到本地。

接下來就是字型分析，同樣的，先檢視字型檔案：

這裡定義兩個列表，一個為漢字列表，一個為編碼列表，他們之間的對應關係是按順序的，即列表的索引，如下所示：

觀察後發現，字典中的鍵值並沒有規律和特殊性，還是得通過xml檔案觀察不同字型檔案的區別，生成xml檔案程式碼如下：
from fontTools.ttLib import TTFont
from io import BytesIO

url_ziti = '字型檔案地址'
ziti = requests.get(url_ziti)
# 下載ttf字型檔案，然後通過BytesIO轉化為記憶體檔案，使用TTFont處理
font = TTFont(BytesIO(ziti.content))
cmap = font.getBestCmap()

font.saveXML(r'C:..\qiche1.xml') 
接下來還是放兩張圖大家感受一下：

這是相同漢字“大”在不同xml檔案中的物件，可以發現，同一漢字的物件是不相同的，區別在於物件中每個座標的差值小於40，於是當有新的字型檔案時只需要對比同一漢字的編碼其物件的差值是否小於40，如果小於就得到對應的漢字。

如果大家還沒有理解，在放兩張圖讓大家感受一下：

鐺鐺鐺鐺！！就是你看到的那樣，這兩個漢字細微的差別就是每個x,y差值的意義。

對比編碼物件的程式碼如下所示：
def comp(l1,l2):#定義一個比較函式，比較兩個列表的座標資訊是否相同
    if len(l1)!=len(l2):
        return False
    else:
        mark= 1
    for i in range(len(l1)):
        if abs(l1[i][0]-l2[i][0])< 40 and abs(l1[i][1]-l2[i][1])< 40:
            pass
        else:
            mark= 0
            break
    return mark

font1 = TTFont(r'C:..\qiche1.ttf')
font2 = TTFont(r'C:..\qiche2.ttf')
tup1=[] #儲存38個字元的（x,y）資訊
for uni in u_list:
    p=font1['glyf'][uni].coordinates #獲取物件的x,y資訊
    tup1.append(list(p))
tup2=[]
for i in uni_list2:
    p=font2['glyf'][i].coordinates
    tup2.append(list(p))
n2= 0
x_list=[]
for d in tup1:
    n2+= 1
    n1= 0
    for a in tup2:
        n1+= 1
        if comp(a,d):
            print(uni_list2[n2-1],word_list[n1-1])
            x_list.append(word_list[n1 -1]) 
對比過後，打印出字型2編碼對應的每一個漢字，結果如下圖所示：

與字型二中的內容一致，可見這樣的判斷是符合要求的（如果大家覺得是偶然因素，可以對比多個字型，看最後的結果是否符合）

字型反爬暫時告一段落，這三個案例是由易到難的一個過程，本質就是尋找一種對映關係，從而在不同的字型檔案也能找到對應字元。

爬蟲之字型反爬（三）汽車之家

今天為大家帶來的是字型反爬的另一個案例，汽車之家。與之前不同的是，這裡是對漢字的處理。具體來看下面的分析與程式碼。首先參考的網站：https://club.autohome.com.cn/bbs/thread/1f05b4da4448439b/76044817-1.html#%23%23

爬蟲之字型反爬（一）起點網

今天為大家帶來的是爬蟲之反爬措施中字型反爬的一個案例，起點網。具體來看下面的分析與程式碼。首先參考的網站：https://www.qidian.com/all?&page=1 從網站中可以觀察到，它的反爬是這樣的：再從網頁原始碼中觀察，發現又是這樣的：

Android Studio之Activity切換動畫（三）

文章 oid out size ref intel tar studio anim 1、上一篇文章“Android Studio之多個Activity的滑動切換（二）”中實現了多個activity之間的滑動切換，可是新切換出的activity大多是從右側進入 2、我們能

Python基礎之常用模塊（三）

section signal server .section 通過 sub 實例 wait 配置文件 1.configparser模塊該模塊是用來對文件進行讀寫操作，適用於格式與Windows ini 文件類似的文件，可以包含一個或多個節（section），每個節可以有多

vuex實踐之路——筆記本應用（三）

lang 們的 res tool method note 做到筆記 not Actions Action 類似於 mutation，不同在於： Action 提交的是 mutation，而不是直接變更狀態。 Action 可以包含任意異步操作。讓我們來註冊一個簡單的

原來這麽拍（三）——燈塔之路

原來這麽拍（三）——燈塔之路在旅行中的燈塔應該怎麽拍？眼光還不錯，燈塔也很有立體感，但是怎麽拍才好看呢；tips1：拍攝主體鮮艷的顏色可以通過構圖進行強調在停車場的一側車比較多，並且光線不是特別的理想，遇到這種情況，我們要學會去改變，尋找更合適的角度，考慮到燈塔的周圍有大片的綠色草地，我們可以強化紅色和綠色色

java之 ------ 圖形界面（三）

cati == item combo 輸入 tab grid sta line import java.awt.*; import java.awt.event.*; import javax.swing.*; import javax.swin

java 核心編程——IO流之字符流（三）

sun logs printf file start ech read private per 1.字符流　　1.1 所有文件的存儲都是字節的存儲，我們日常在磁盤上保存的其實並不是文件的字符，而是先把字符轉換成字節，再把這些字節儲存到磁盤。在讀取文件時，也是一個字節一個字

WPF入門教程系列八——布局之Grid與UniformGrid（三）

input 接下來 toolbar wid ids 全部 ica tar 生成五. Grid Grid顧名思義就是“網格”，它的子控件被放在一個一個實現定義好的小格子裏面，整齊配列。 Grid和其他各個Panel比較起來，功能最多也最為復雜。要使用Grid，首先要向Row

JavaWeb（三）JSP之3個指令、6個動作、9個內置對象和4大作用域

不用 context 請求判斷自定義 except -c 一次導航欄前言　　前面大概介紹了什麽是JSP，今天我給大家介紹一下JSP的三個指令、6個動作以及它的9大內置對象。接下來我們就直接進入正題一、JSP的3個指令 JSP指令（directive）是為J

C#可擴展編程之MEF學習筆記（三）：導出類的方法和屬性（轉）

學習說了如何 mod ati dem ont num imp 前面說完了導入和導出的幾種方法，如果大家細心的話會註意到前面我們導出的都是類，那麽方法和屬性能不能導出呢？？？答案是肯定的，下面就來說下MEF是如何導出方法和屬性的。　　還是前面的代碼，第二篇中已經提供了下

Spring Boot 入門之持久層篇（三）

imp 配置文件 bat catch map ann 文件 save values 原文地址：Spring Boot 入門之持久層篇（三）博客地址：http://www.extlight.com 一、前言上一篇《Spring Boot 入門之 Web 篇（二）》介紹

phpcms之首頁組成（三）

title == blog type script span slist rst target {pc:content action="lists" catid="39" order="id ASC" num="3" } {

【JMeter4.0學習（三）】之SoapUI創建WebService接口模擬服務端以及JMeter測試SOAP協議性能測試腳本開發

test 點擊下一步 download enc text div 接口模擬 wid 目錄：創建WebService接口模擬服務端下載SoapUI 新建MathUtil.wsdl文件創建一個SOAP項目接口模擬服務端配置以及啟動【闡

MySQL（三）DQL之基礎查詢

auto lec image images dql src 有一個運算符 mysq 1、語法 SELECT 要查詢的東西 FROM 表名 ; 類似於Java中：System.out.println(要打印的東西)； 2、特點 ①通過select查詢完的結果，是一個

（三）mybatis之對Hibernate初了解

直接 utf-8 多個更改 fig cfg.xml myba jdb 相對前言：為什麽會寫Hibernate呢？因為HIbernate跟Mybatis一樣，是以ORM模型為核心思想的，但是這兩者有相似的地方也有差異的地方。通過這兩種框架的比對，可以對mybatis有著更

從零開始學 Web 之 JS 高級（三）apply與call，bind，閉包和沙箱

master 操作 console 概念釋放分享圖片成功 num 命名沖突大家好，這裏是「從零開始學 Web 系列教程」，並在下列地址同步更新...... github：https://github.com/Daotin/Web 微信公眾號：Web前端之巔

CentOS 7之Postfix部署系列（三）postfix和Dovecot配置

-o art 4.2 water 修改 ins har fir mail -----提供AD\Exchange\Lync\Sharepoint\CRM\SC\O365等微軟產品實施及外包，QQ:185426445.電話18666943750https://tecadmin.

SpringCloud之服務消費者Feign（三）

消費 apt boot cal port xmlns sco packaging url 一、Feign簡介Feign是一個聲明式的偽Http客戶端，它使得寫Http客戶端變得更簡單。使用Feign，只需要創建一個接口並註解。它具有可插拔的註解特性，可使用Feign 註解和

人臉識別之人臉對齊（三）--AAM演算法原文： http://blog.csdn.net/colourfulcloud/article/details/9774017 AAM(Active Appear

原文： http://blog.csdn.net/colourfulcloud/article/details/9774017 AAM(Active Appearance Model)主動外觀模型主要分為兩個階段，模型建立階段和模型匹配階段。其中模型建立階段包括了對訓練樣本分別建立形狀模型(

爬蟲之字型反爬（三）汽車之家

相關推薦