python關鍵字提取原始碼_python提取頁面html中的ICP編號和頁面原始碼編碼

阿新 • • 發佈：2021-01-17

最近的工作一直是在測試中度過，還有很多別的事，下午的測試中發現了之前專案中的程式碼有的已經失效了或者說工作的沒有那麼好了，不知道是什麼緣故，這裡沒有太多的時間去糾結，想著重新找一個正則表示式替換一下行了，結果在網上搜索的時候居然查了好多的資料看了很多的部落格也沒有看到有關提取頁面ICP編號的相關內容，這裡就索性再寫一個，在這裡重寫了一個專案中的小函式，功能是提取頁面html中的ICP編碼，後做後續的處理，這裡就不多說了，也很簡單，只是使用了一下python的神奇的re模組做了一下匹配，下面是程式碼：

#!/usr/bin/env python# coding: utf-8 import reimport urllib '''功能：提取頁面html中的ICP編號和頁面編碼方式Author:yishuihancheng''' def icp_match(url='http://www.baidu.com'):html = urllib.urlopen(url).read()compile_rule = re.compile(r'([一-龥]?ICP證[d]+|[一-龥]?ICP備[d]+)', re.I)compile_list = re.findall(compile_rule, html)compile_rule1 = re.compile('(?i).*charsets*=s*([^s]+)')compile_list1 = re.findall(compile_rule1, html)print '編碼方式為————>', compile_list1for line in compile_list:print lineprint '網頁ICP編號為------>', compile_list icp_match()icp_match(url='http://www.mi.com')

下面是結果：

編碼方式為————> ['utf-8">']

ICP證030173

網頁ICP編號為------> ['ICPxe8xafx81030173']

編碼方式為————> ['"UTF-8"']

ICP證110507

ICP備10046444

網頁ICP編號為------> ['ICPxe8xafx81110507', 'ICPxe5xa4x8710046444']

很粗糙的實現了一下，在往主函式裡面放的時候做一下調整和優化就可以了，這個可能也會有

python關鍵字提取原始碼_python提取頁面html中的ICP編號和頁面原始碼編碼

python關鍵字提取原始碼_python提取頁面html中的ICP編號和頁面原始碼編碼

Python使用get_text()方法從大段html中提取文字的例項

在html中做巢狀頁面_客戶端實現html頁面的巢狀

《解決HTML中footer保持在頁面底部問題》

【python】我OUT了，原來函式中的冒號和箭頭是這麼回事

HTML中的div和span

HTML中的properties和attributes有什麼區別

解析html中的table和表頭

php 去掉html中的空格和換行的方法

html中使用vue 和 vue模組

Python筆記從html中提取欄位

python 實現視訊影象幀提取

Python 用三行程式碼提取PDF表格資料

python 利用正則表示式提取特殊資訊

python利用正則表示式提取文字中特定內容

Python+Opencv身份證號碼區域提取及識別實現

006 Python網路爬蟲與資訊提取資訊組織與提取方法

007 Python網路爬蟲與資訊提取中國大學排名爬蟲

用Python實現特定檔案的提取

python辦公自動化——提取pdf中的文字和表格

python關鍵字提取原始碼_python提取頁面html中的ICP編號和頁面原始碼編碼

相關推薦