學習筆記2018.1.9

阿新 • • 發佈：2018-12-30

Beautiful Soup庫解析器
解析器	使用方法	條件
bs4的HTML解析器： BeautifulSoup(mk,’html.parser’)  安裝bs4庫
lxml的HTML解析器： BeautifulSoup(mk,’lxml’)         pip install lxml
lxml的XML解析器：  BeautifulSoup(mk,’xml’)	 pip install lxml
html5lib的解析器：	BeautifulSoup(mk,’html5lib’)	pip install html5lib
 
Beautiful Soup類的基本元素：
Tag  標籤，最基本的資訊組織單元，分別用<>和</>標明開頭和結尾
Name  標籤的名字，<p>...</p>的名字是’p’，格式：<tag>.name
Attributes  標籤的屬性，字典形式組織，格式：<tag>.attrs
NavigableString  標籤內非屬性字串，<>...</>中字串，格式：<tag>.string
Comment  標籤內字串的註釋部分，一種特殊的Comment型別

標籤樹的下行遍歷
.contents  子結點的列表，將<tag>所有兒子節點存入列表
.children  子結點的迭代型別，與.coontents類似，用於迴圈遍歷兒子節點
.descendants  子孫節點的迭代型別，包含所有子孫節點，用於迴圈遍歷
標籤樹的上行遍歷
.parent  節點的父親標籤
.parents  節點先輩標籤的迭代型別，用於迴圈遍歷先輩節點
 
標籤樹的平行遍歷
.next_sibling  返回按照HTML文字順序的下一個平行節點標籤
.previous_sibling  返回按照HTML文字順序的上一個平行節點標籤
.next_siblings  迭代型別，返回按照HTML文字順序的後續所有平行節點標籤
.previous_sibling  迭代型別，返回按照HTML文字順序的前續所有平行節點標籤
 
平行遍歷需要發生在同一個父點下的各節點間
.prettify()為HTML文字<>及其內容增加更加’\n’
.prettify()可用於標籤，方法：<tag>.prettify()
bs4庫將任何HTML輸入都變成utf-8編碼
 
HTML：Hyper Text Markup Language
 
<>.find_all(name,attrs,recursive,string,**kwargs)
name：對標籤名稱的檢索字串
attrs：對標籤屬性值的檢索字串，可標註屬性檢索
recursive：是否對子孫全部檢索，預設True
string：<>...</>中字串區域的檢索字串
 
<tag>(..) 等價於 <tag>.find_all(..)
Soup(..) 等價於 soup.find_all(..)
 
<>.find()  搜尋且只返回一個結果，同.find_all()引數
<>.find_parents()在先輩節點中搜索，返回列表型別，同.find_all()引數
<>.find_parent()在先輩節點中返回一個結果，同.find()引數
<>.find_next_siblings()在後續平行節點中搜索，返回列表型別，同.find_all()引數
<>.find_next_sibling()在後續平行節點中返回一個結果，同.find()引數
<>.find_previous_siblings()在前續平行節點中搜索，返回列表型別，同.find_all()引數
<>.find_previous_sibling()在前續平行節點中返回一個結果，同.find()引數

中文對齊問題的原因：
當中文字元寬度不夠時，採用西文字元填充；中西文字元佔用寬度不同。
解決方法：
採用中文字元的空格填充chr(12288)

此後跟著步驟做了一個爬取資訊的爬蟲

複習去了= =

學習筆記2018.1.9

Beautiful Soup庫解析器解析器使用方法條件 bs4的HTML解析器： BeautifulSoup(mk,’html.parser’) 安裝bs4庫 lxml的HTML解析器： BeautifulSoup(mk,’lxml’) pip install lxml

【extjs6學習筆記】1.9 初始： Mixins

另一個筆記 extjs 微軟 mage extjs6 名稱 img pan Mixin允許我們使用一個類的函數作為另一個類的函數而不繼承。 Mixins可以使用mixins關鍵字定義，並將值指定為JSON對象，其中屬性的名稱應該是要使用的方法的名稱，屬性的值

c學習筆記2018.10.9

這期筆記整理一下以前學的內容，emmmmm 不一定會畢竟好長時間了，擺出來可以經常複習複習 Hello world 1 #include<stdio.h> #include <stdlib.h> int main() { puts(

學習筆記2018-1-7

一、Java集合 1、Deque介面提供了一個典型的實現類: ArrayDeque，從該名稱就可以看出，它是一個基於陣列實現的雙端佇列，建立 Deque時同樣可指定一個 numElements引數，該引數用於指定 Object陣列的長度；如果不指定 numEl

Python學習筆記 2018.1.22

Python會在給變數賦值時自動識別是整數還是浮點數，而不用去事先宣告變數；如果變數是整數或是浮點數，則不能直接使用Print進行列印，必須使用Str（）進行型別修改，如變數I = 23，則Print（Str（I））才能正確的輸出結果； Python使用#進行註釋； Py

2018-1-9 Linux學習筆記

ins var nic only 返回使用 str 刪除下載源 7.6 yum更換國內源 yum倉庫源默認是鏈接到國外的源,有時從國外的倉庫源下載會很慢,這時我們可將yum源更改成國內的倉庫源 ,其步驟如下:cd /etc/yum.repos.d #進入到yum源配

python的學習筆記/002-1（2018-5-18 ）

python1.模塊初始化1) getpass 模塊程序實例：import getpass_password=‘penny‘_password=‘abc123’passname=input(passname:)password=getpass.getpass("password:")

cesium 學習筆記（1）2018.5.25

Cesium是一個基於JavaScript的開源框架，可用於在瀏覽器中繪製3D的地球，並在其上繪製地圖（支援多種格式的瓦片服務），該框架不需要任何外掛支援，但是瀏覽器必須支援WebGL。 1、使用的時候得引入一個特殊的css，否則樣式出不來 <link rel="stylesheet" t

JUC學習筆記2018.9.19——01

一、volatile 關鍵字：當多個執行緒進行操作共享資料時，可以保證記憶體中的資料可見。相較於 synchronized 是一種較為輕量級的同步策略。 /*TestVolatile.java*/ public

OpenCV 2.4.9 學習筆記（1）—— 基本功能結構

一些關於OpenCV（2.4.9版本）的學習筆記，作為記錄，以免自己忘了。安裝與配置　　OpenCV的下載、安裝以及在各個平臺（Windows/Linux等）配置網上有很多的資料，自己就不用存了。需要或者遇到問題的時候再說。基本模組結構　　OpenCV（Open Source Computer

JAVA學習筆記（1）——a++與++a的區別

col int 演示 opera 解析代碼數據 ++i div 需求：此博客用於解釋i++與++i的區別。過程： 1、名稱解釋 ++：自增，即在原有數據基礎上+1，再賦給原有數據。 2、程序演示（1）代碼： 1 class OperateDemo 2 { 3

【extjs6學習筆記】1.1 初始：創建項目

workspace 學習分享 pps cnblogs log -i 學習筆記 apps 創建工作空間 sencha generate workspace /path/to/workspace 使用sencha創建應用 sencha

【extjs6學習筆記】1.2 初始：MVC MVVM

控制進行 nbsp 例如 ges 如果 image 初始互動模型這表示數據層。該模型可以包含數據驗證和邏輯來保持數據。在 ext js 中, 大多數模型都與一個數據存儲一起使用。視圖這表示用戶界面。是用戶在屏幕上看到的組

vray學習筆記（1）

com .cn 過程分組是把皮膚 mon image 基本 vray是個什麽東西？它是個渲染器。渲染器是個什麽東西？渲染器就是3d軟件裏面把模型畫成一張圖片的東西，渲染的過程就是把3D物體變成2D畫面的過程。模型是個什麽東西？模型就是模型，它由兩部分組成，第

《深入理解C指針》學習筆記（1）--- 指針之外

結構 def form 學習編程 stdlib.h struct 一個 char 　　C語言從誕生之初就非常善於和硬件打交道，經過這麽多年的發展之後，其靈活性和超強的特征是受到幾乎所有程序員的肯定。C語言的這種靈活性很大一部分程度來源與C指針，指針為C語言動態操控內存提供

【extjs6學習筆記】1.7 初始：加載第三方庫

sum pro eve owa spec expect mapview cap ply https://www.sencha.com/blog/integrating-ext-js-with-3rd-party-libraries-2/ Introduction

【extjs6學習筆記】1.10 初始：定義類

ria nbsp src clas -1 學習 ref 定義類 mage http://www.extjs-tutorial.com/extjs/define-new-class-in-extj

【extjs6學習筆記】1.11 初始： config

get 默認值學習筆記聲明 img image 成員使用 set Ext JS有一個名為config的功能。該配置允許您使用默認值聲明公共屬性，這些屬性將被其他類成員完全封裝。通過config聲明的屬性將自動獲取get（）和set（）方法，如果類沒有定義這些方法。

【extjs6學習筆記】1.15 初始: 關於build

size hit 自己更改 font color 第三方庫 class spa 調試版本 sencha app build --development 發布版本 sencha app build 說明：使用第三方庫時，目前senc

【extjs6學習筆記】1.16 初始: 關於主題

.com platform 正常 gen 藍色 tun nod 執行 ron 打開app.json，裏面有主題設置主題說明 theme-base 這個包是所有其他主題的基礎主題，是唯一沒有父主題的主題。它包含Ext J

學習筆記2018.1.9

相關推薦