1. 程式人生 > 其它 >python關鍵字提取原始碼_python提取頁面html中的ICP編號和頁面原始碼編碼

python關鍵字提取原始碼_python提取頁面html中的ICP編號和頁面原始碼編碼

技術標籤:python關鍵字提取原始碼

最近的工作一直是在測試中度過,還有很多別的事,下午的測試中發現了之前專案中的程式碼有的已經失效了或者說工作的沒有那麼好了,不知道是什麼緣故,這裡沒有太多的時間去糾結,想著重新找一個正則表示式替換一下行了,結果在網上搜索的時候居然查了好多的資料看了很多的部落格也沒有看到有關提取頁面ICP編號的相關內容,這裡就索性再寫一個,在這裡重寫了一個專案中的小函式,功能是提取頁面html中的ICP編碼,後做後續的處理,這裡就不多說了,也很簡單,只是使用了一下python的神奇的re模組做了一下匹配,下面是程式碼:

#!/usr/bin/env python# coding: utf-8 import reimport urllib '''功能:提取頁面html中的ICP編號和頁面編碼方式Author:yishuihancheng''' def icp_match(url='http://www.baidu.com'):html = urllib.urlopen(url).read()compile_rule = re.compile(r'([一-龥]?ICP證[d]+|[一-龥]?ICP備[d]+)', re.I)compile_list = re.findall(compile_rule, html)compile_rule1 = re.compile('(?i).*charsets*=s*([^s]+)')compile_list1 = re.findall(compile_rule1, html)print '編碼方式為————>', compile_list1for line in compile_list:print lineprint '網頁ICP編號為------>', compile_list icp_match()icp_match(url='http://www.mi.com')

下面是結果:

編碼方式為————> ['utf-8">']

ICP證030173

網頁ICP編號為------> ['ICPxe8xafx81030173']

編碼方式為————> ['"UTF-8"']

ICP證110507

ICP備10046444

網頁ICP編號為------> ['ICPxe8xafx81110507', 'ICPxe5xa4x8710046444']

很粗糙的實現了一下,在往主函式裡面放的時候做一下調整和優化就可以了,這個可能也會有

4ac3e0b509a0903b9bd3796c6bf4ad79.png