異常爬蟲demo、 find函式和findAll函式以及正則表示式查詢元素

阿新 • • 發佈：2018-12-19

程式碼位於書的第1-2章

# from urllib.request import urlopen
# from bs4 import BeautifulSoup
# html = urlopen("http://pythonscraping.com/pages/page1.html")
# # html.parser是Python的解析器的解析型別
# bsObj = BeautifulSoup(html.read() , "html.parser")
# print(bsObj.h1)

# 異常處理的爬蟲例子
# from urllib.error import HTTPError, URLError
# from urllib.request import urlopen
# from bs4 import BeautifulSoup
#
# def get_title(url):
#     try:
#         html = urlopen(url)
#     except (HTTPError, URLError) as e:
#         return None
#     try:
#         bsObj = BeautifulSoup(html.read(), "html.parser")
#         title = bsObj.body.h1
#     except AttributeError as e:
#         return None
#     return title
# title = get_title("http://pythonscraping.com/pages/page1.html")
# if title is None :
#     print("title could not be found")
# else :
#     print(title)

# find和findAll函式
import re
from urllib.request import urlopen
from bs4 import BeautifulSoup
# html = urlopen("http://pythonscraping.com/pages/warandpeace.html")
# bsObj=BeautifulSoup(html.read(), "html.parser")
# nameList=bsObj.findAll("span", {"class": "green"})
# for name in nameList:
#     print(name.get_text())
#     from urllib.request import urlopen
#     from bs4 import BeautifulSoup

# 使用導航樹進行查詢
# html = urlopen("http://www.pythonscraping.com/pages/page3.html")
# bsObj = BeautifulSoup(html.read(), "html.parser")
# print(bsObj.find("img", {"src": "../img/gifts/img1.jpg"}).parent.previous_sibling.get_text())

# 使用正則表示式查詢
html = urlopen("http://www.pythonscraping.com/pages/page3.html")
bsObj = BeautifulSoup(html.read(), "html.parser")
images=bsObj.findAll("img", {"src": re.compile("\.\.\/img\/gifts\/img.*\.jpg")})
for image in images:
    print(image["src"])

異常爬蟲demo、 find函式和findAll函式以及正則表示式查詢元素

程式碼位於書的第1-2章 # from urllib.request import urlopen # from bs4 import BeautifulSoup # html = urlopen("http://pythonscraping.com/pages/page1

請實現一個函式用來匹配包括'.'和''的正則表示式。模式中的字元'.'表示任意一個字元，而''表示它前面的字元可以出現任意次（包含0次）。在本題中，匹配是指字串的所有字元匹配整個模式。

題目描述請實現一個函式用來匹配包括'.'和'*'的正則表示式。模式中的字元'.'表示任意一個字元，而'*'表示它前面的字元可以出現任意次（包含0次）。在本題中，匹配是指字串的所有字元匹配整個模式。例如，字串"aaa"與模式"a.a"和"ab*ac*a"匹配，但是與"aa.a"和"ab*a"均

請實現一個函式用來匹配包括'.'和''的正則表示式。模式中的字元'.'表示任意一個字元，而''表示它前面的字元可以出現任意次（包含0次）。在本題中，匹配是指字串的所有字元匹配整個模式。例如，字

public class Solution { public boolean match(char[] str, char[] pattern) { if(str==null||pattern==null) { return

python處理異常、日誌以及正則表示式

異常捕獲高階語言通常都內建了一套try…except…finally…的錯誤處理機制，Python也不例外。而且只要在合適的層次去捕獲錯誤就可以了。 def foo(s): return 10 / int(s) def bar(s):

replace限制文字框只能輸入數字，數字和字母等的正則表示式

1.文字框只能輸入數字程式碼(小數點也不能輸入) <input onkeyup="this.value=this.value.replace(/\D/g,'')" onafterpaste="this.value=this.value.replace(/\D/g,'')">&

【Python3 爬蟲學習筆記】基本庫的使用 8—— 正則表示式 1

三、正則表示式 1.例項引入開啟開源中國提供的正則表示式測試工具 http://tool.oschina.net/regex/ ，輸入待匹配的文字，然後選擇常用的正則表示式，就可以得出相應的匹配結果。對於URL來說，可以用下面的正則表示式匹配： [a-zA-z]+://[^\

【Python3 爬蟲學習筆記】基本庫的使用 12—— 正則表示式 5

6. compile() compile()方法可以將正則字串編譯成正則表示式物件，以便在後面的匹配中複用。示例程式碼如下： import re content1 = '2016-12-15 12:00' content2 = '2016-12-17 12:55' content3

【Python3 爬蟲學習筆記】基本庫的使用 11—— 正則表示式 4

4. findall() search()方法可以返回匹配正則表示式的第一個內容，但是如果想要獲取匹配正則表示式的所有內容，就要藉助findall()方法了。該方法會搜尋整個字串，然後返回匹配正則表示式的所有內容。上一節中的HTML文字中，如果想要獲得所有a節點的超連結、歌手和歌名，就

【Python3 爬蟲學習筆記】基本庫的使用 10—— 正則表示式 3

3.search() mathch()方法是從字串的開頭開始匹配的，一旦開頭不匹配，那麼整個匹配就失敗了。因為match()方法在使用時需要考慮到開頭的內容，這在匹配時並不方便。它更適合用來檢測某個字串是否符合某個正則表示式的規則。 search()方法在匹配時會掃描整個字串，然後返回第

【Python3 爬蟲學習筆記】基本庫的使用 9—— 正則表示式 2

1.1 匹配目標如果想從字串中提取出一部分內容，可以用()括號將想提取的子字串括起來。()實際上標記了一個子表示式的開始和結束位置，被標記的每個子表示式會一次對應一個分組，呼叫group()方法傳入分組的索引即可獲取提取的結果。示例如下： import re content =

Linux使用者組和許可權管理及正則表示式

1、複製/etc/skel目錄為/home/tuser1,要求/home/tuser1及其內部檔案的屬組和其他使用者沒有任何訪問許可權。 [[email protected] ~]# cp -a /etc/skel /home/tuser1 [[email protected] ~]#

MySQL之聚合查詢、子查詢、合併查詢、正則表示式查詢詳解

一：聚合查詢 1：MySQL之聚合函式基本表orderitems表結構如下： 2：count()函式 2.1：count()函式用來統計記錄的條數 2.2：與group by 關鍵字一起使用 SQL語句如下: 查詢的結果如下： 3：su

elasticsearch-wildcard、regexp萬用字元與正則表示式查詢

萬用字元與正則表示式查詢假設將郵編作為 not_analyzed 的精確值欄位索引，所以可以為其建立索引，如下： PUT /my_index { "mappings": { "address": { "properties

判斷是否是手機號碼和手機號碼的正則表示式

//是否是手機號碼 public static boolean isMobileNo(String mobiles){ String telRegex = "[1][34578]\\d{9}"; if(TextUtils.isEmpty(m

java 如何用pattern 和 Matcher 來使用正則表示式

java的regex庫 java裡預留了一個regex庫，方便於我們在java裡操作正則表示式，或者用它來匹配字串。其中比較常用的就是 Pattern 和 Matcher ,pattern是一個編譯好的正則表示式，而Mather是一個正則表示式介面卡，M

只保留p和img標籤，正則表示式

js中使用，保留了標籤中的屬性content = content.replace(/<(?!\/?p|\/?IMG)[^<>]*>/ig,'');js中使用，去除img標籤中的style屬性content = content.replace(/styl

用js以及正則表示式實現對郵箱和密碼的前端驗證

<!DOCTYPE html> <html> <head> <title>郵箱註冊</title> <style type="text/css"> td{ text-align: center; color

less和vim中使用正則表示式搜尋

使用less檢視 txt 檔案之後，按\可以正則表示式來搜尋： less phonelist.txt (232) 298-2265 (624) 381-1078 (540) 1

在vs2013中使用正則表示式查詢和替換文字內容

我們有的時候需要替換程式碼中的某些內容，因為替換的內容“不一致”，所以不能簡單的使用一個replace搞定。這裡有幾個解決方法，核心思想是一致的，程式設計師不要做體力活，能交給程式或指令碼的就交給程式或指令碼來完成。我先提一個替換的需求，這

異常爬蟲demo、 find函式和findAll函式 以及正則表示式查詢元素

相關推薦

異常爬蟲demo、 find函式和findAll函式以及正則表示式查詢元素