1. 程式人生 > >用XPath精確定位節點元素

用XPath精確定位節點元素

 在利用XSL進行轉換的過程中,匹配的概念非常重要。在模板宣告語句 xsl:template match = ""和模板應用語句xsl:apply-templates select = "" 中,用引號括起來的部分必須能夠精確地定位節點。具體的定位方法則在XPath中給出。

之所以要在XSL中引入XPath的概念,目的就是為了在匹配XML文件結構樹時能夠準確地找到某一個節點元素。可以把XPath比作檔案管理路 徑:通過檔案管理路徑,可以按照一定的規則查詢到所需要的檔案;同樣,依據XPath所制定的規則,也可以很方便地找到XML結構文件樹中的任何一個節 點,顯然這對XSLT來說是一個最最基本的功能。

XPath資料型別

XPath可分為四種資料型別:

  • 節點集(node-set)
    節點集是通過路徑匹配返回的符合條件的一組節點的集合。其它型別的資料不能轉換為節點集。
  • 布林值(boolean)
    由函式或布林表示式返回的條件匹配值,與一般語言中的布林值相同,有true和 false兩個值。布林值可以和數值型別、字串型別相互轉換。
  • 字串(string)
    字串即包含一系列字元的集合,XPath中提供了一系列的字串函式。字串可與數值型別、布林值型別的資料相互轉換。
  • 數值(number)
    在XPath 中數值為浮點數,可以是雙精度64位浮點數。另外包括一些數值的特殊描述,如非數值NaN(Not-a-Number)、正無窮大infinity、負無 窮大-infinity、正負0等等。number的整數值可以通過函式取得,另外,數值也可以和布林型別、字串型別相互轉換。

其中後三種資料型別與其它程式語言中相應的資料型別差不多,只是第一種資料型別是XML文件樹的特有產物。

XPath節點型別

另外,由於XPath包含的是對文件結構樹的一系列操作,因此搞清楚XPath節點型別也是很必要的。回憶一下第二章中講到的XML文件的邏輯結 構,一個XML檔案可以包含元素、CDATA、註釋、處理指令等邏輯要素,其中元素還可以包含屬性,並可以利用屬性來定義名稱空間。相應地,在XPath 中,將節點劃分為七種節點型別:

  1. 根節點(Root Node)
    根節點是一棵樹的最上層,根節點是唯一的。樹上其它所有元素節點都是它的子節點或後代節點。對根節點的處理機制與其它節點相同。在XSLT中對樹的匹配總是先從根節點開始。
  2. 元素節點(Element Nodes)
    元素節點對應於文件中的每一個元素,一個元素節點的子節點可以是元素節點、註釋節點、處理指令節點和文字節點。可以為元素節點定義一個唯一的標識id。元素節點都可以有副檔名,它是由兩部分組成的:一部分是名稱空間URI,另一部分是本地的命名。
  3. 文字節點(Text Nodes)
    文字節點包含了一組字元資料,即CDATA中包含的字元。任何一個文字節點都不會有緊鄰的兄弟文字節點,而且文字節點沒有副檔名。
  4. 屬性節點(Attribute Nodes)
    每 一個元素節點有一個相關聯的屬性節點集合,元素是每個屬性節點的父節點,但屬性節點卻不是其父元素的子節點。這就是說,通過查詢元素的子節點可以匹配出元 素的屬性節點,但反過來不成立,只是單向的。再有,元素的屬性節點沒有共享性,也就是說不同的元素節點不共有同一個屬性節點。
    對預設屬性的處理等同於定義了的屬性。如果一個屬性是在DTD宣告的,但宣告為 #IMPLIED,而該屬性沒有在元素中定義,則該元素的屬性節點集中不包含該屬性。
    此外,與屬性相對應的屬性節點都沒有名稱空間的宣告。名稱空間屬性對應著另一種型別的節點。
  5. 名稱空間節點(Namespace Nodes)
    每一個元素節點都有一個相關的名稱空間節點集。在XML文件中,名稱空間是通過保留屬性宣告的,因此,在XPath中,該類節點與屬性節點極為相似,它們與父元素之間的關係是單向的,並且不具有共享性。
  6. 處理指令節點(Processing Instruction Nodes)
    處理指令節點對應於XML文件中的每一條處理指令。它也有副檔名,副檔名的本地命名指向處理物件,而名稱空間部分為空。
  7. 註釋節點(Comment Nodes)
    註釋節點對應於文件中的註釋。



我們來構造一棵XML文件樹,作為後面舉例的依託:


以下將要介紹一些XPath中節點匹配的基本方法。



路徑匹配

路徑匹配與檔案路徑的表示相仿,比較好理解。有以下幾個符號:

(1)用“/”指示節點路徑
如“/A/C/D” 表示節點"A"的子節點"C"的子節點"D",即id值為d2的D節點, “/”表示根節點。

(2)用“//” 表示所有路徑以"//"後指定的子路徑結尾的元素
如“//E” 表示所有E元素,結果是所有三個E元素,如“//C/E”表示所有父節點為C的E元素,結果是id值為e1和e2的兩個E元素 。

(3)用“*” 表示路徑的萬用字元
如“/A/B/C/*”表示 A元素→B元素→C元素下的所有子元素,即name值為b的B元素、 id值為d1的D元素和id值為e1和e2的兩個E元素
“/*/*/D”表示上面有兩級節點的D元素,匹配結果是id值為d2的D元素 ,如“//*”表示所有的元素。




位置匹配

對於每一個元素,它的各個子元素是有序的。

如:/A/B/C[1]表示A元素→B元素→C元素的第一個子元素,得到name值為b的B元素

/A/B/C[last()]表示A元素→B元素→C元素的最後一個子元素,得到id值為e2的E元素

/A/B/C[position()>1]表示A元素→B元素→C元素之下的位置號大於1的元素,得到id值為d1的D元素和兩個具有id值的E元素



在XPath中可以利用屬性及屬性值來匹配元素,要注意的是,元素的屬性名前要有"@"字首。例如:

//B[@id]表示所有具有屬性id的B元素,結果為id值為b1和b2的兩個B元素

//B[@*]表示所有具有屬性的B元素,結果為兩個具有id屬性的B元素和一個具有name屬性B元素

//B[not(@*)]表示所有不具有屬性的B元素,結果為A元素→C元素下的B元素

//B[@id="b1"] id值為b1的B元素,結果為A元素下的B元素



XML文件可歸結為樹型結構,因此任何一個節點都不是孤立的。通常我們把節點之間的歸屬關係歸結為一種親屬關係,如父親、孩子、祖先、後代、兄弟等等。在對元素進行匹配時,同樣可以用到這些概念。例如:

//E/parent::* 表示所有E節點的父節點元素,結果為id值為a1的A元素和id值為c1的C元素

//F/ancestor::* 表示所有F元素的祖先節點元素,結果為id值為a1的A元素和id值為c2的C元素

/A/child::* 表示A的子元素,結果為id值為b1、b2的B元素,id值為c2的C元素,以及沒有任何屬性的E元素

/A/descendant::* 表示A的所有後代元素,結果為除A元素以外的所有其它元素

//F/self::* 表示所有F的自身元素,結果為F元素本身

//F/ancestor-or-self::* 表示所有F元素及它的祖先節點元素,結果為F元素、F元素的父節點C元素和A元素

/A/C/descendant-or-self::* 表示所有A元素→C元素及它們的後代元素,結果為id值為c2的C元素、該元素的子元素B、D、F元素

/A/C/following-sibling::* 表示A元素→C元素的緊鄰的後序所有兄弟節點元素,結果為沒有任何屬性的E元素

/A/C/preceding-sibling::* 表示A元素→C元素的緊鄰的前面所有兄弟節點元素,結果為id值為b1和b2的兩個B元素

/A/B/C/following::* 表示A元素→B元素→C元素的後序的所有元素,結果為id 為b2的B元素、無屬性的C元素、無屬性的B元素、id為d2的D元素、無屬性的F元素、/無屬性的E元素。

/A/C/preceding::* 表示A元素→C元素的前面的所有元素,結果為id為b2的B元素、id為e2的E元素、id為e1的E元素、id為d1的D元素、name為 b的B元素、id為c1的C元素、id為b1的B元素



條件匹配

條件匹配就是利用一些函式的運算結果的布林值來匹配符合條件的節點。常用於條件匹配的函式有四大類:節點函式、字串函式、數值函式、布林函式。例如last()、position()等等,這裡我們就不再贅述。

以上這些匹配方法中,用得最多的還要數路徑匹配。在上一章樣式表的例子中,無論是在語 句<xsl:template match="學生花名冊">中,還是在語句 <xsl:value-of select="名字"/>中,都是依靠給出相對於當前路徑的子路徑來定位節點的。


_______________________________________________________

4.XPath的語法

我們在前面已經提到過,XPath是用來幫助XSLT在XML源文件中查詢定位資訊的語言。在實際使用過程 中,XPath和XSLT總是混在一起使用,在上面一章的語法例子中我們已經有使用到XPath的語法,只是沒有明確點出。但W3C將它們分成兩個標準, 所以我們也將它們拆成兩章來講解。

4.XPath的語法

4.1 當前位置
4.2 定址操作
4.3 運算子
4.4 功能函式

4.1 當前位置

當 我們使用XSLT處理XML源文件是,我們用Context來表示當前正在被模板處理的節點位置。比如xsl:template match="/"語句中表示Context在文件的根(root)節點。我不知道如何準確的翻譯Context這個詞,它類似於C語言裡的指標,表示程 序當前執行的位置。理解Context對於正確處理XSL模板非常重要,當您的XSL模板輸出的文件和您想要的不一樣,最先應該分析的就是Context 在哪裡。
Location Paths是用於設定你想要尋找的Context節點位置。就類似DOS的目錄命令。我們看個例子

<xsl:for-each select="child::PEOPLE/descendant::PERSON">

其中child::PEOPLE/descendant::PERSON就是XPath語法,這個表示式就是一個Location Paths,程式碼說明要顯示所有PEOPLE元素的子元素和所有PERSON元素的子元素。通常我們會採用更簡單的寫法:

<xsl:for-each select="PEOPLE//PERSON">

我們來解釋path的兩種表示方法:"/"和"//"。
"/"是表示當前文件的節點,類似DOS目錄分割符。例如:/PEOPLE表示選擇根節點下的PEOPLE元素;PEOPLE/PERSON表示選擇PEOPLE元素下所有的PESON子元素。
"//"則表示當前文件所有的節點。類似檢視整個目錄。例如://PEOPLE表示選擇文件中所有的PEOPLE元素,無論它在什麼層次;PEOPLE//PERSON表示在PEOPLE元素下所有的PERSON元素,無論它的層次多深。

4.2 定址操作

Axis和Predicate是XPath語法中對Location Paths進行定位操作的語法,具體的用法列表如下

Axis語法表
--------------------------------------------------------
表示式 簡寫 說明
--------------------------------------------------------
self . 選擇當前的節點.。
例子 :
<TD><xsl:value-of select="."/></TD>
程式碼表示在當前位置插入當前的節點包含的文字(text)值,
--------------------------------------------------------
parent .. 選擇當前節點的父節點。
--------------------------------------------------------
attribute @ 選擇一個元素的所有屬性。
例子:
<TD><xsl:value-of select="@PERSONID"/></TD>
選擇PERSON元素的所有屬性.
--------------------------------------------------------
child 選擇當前節點的所有子元素。
--------------------------------------------------------
ancestor 選擇當前節點的所有父元素(包括父元素的父元素,類推)
--------------------------------------------------------

Axis幫助我們選擇當前節點周圍所有的節點,而Predicate則用來定位當前節點內部的元素。表示方法為方括號[]中加表示式:[ Expression ]。具體舉例如下:

PERSON[position()=2]
這句程式碼表示尋找第二個"PERSON" 元素

PERSON[starts-with(name, "B")]
這句程式碼表示尋找所有名稱以"B"開頭的PERSON元素。

4.3 運算子

這一節介紹XPath的運算子(Expressions),列表如下:
--------------------------------------------------------
運算子 說明
--------------------------------------------------------
and, or 就是普通意義的and, or
--------------------------------------------------------
= 等於
--------------------------------------------------------
!= 不等於
--------------------------------------------------------
>, >= 大於,大於等於
--------------------------------------------------------
<, <= 小於,小於等於。注意:在XSL檔案中,<符號要用< 表示
--------------------------------------------------------
+, -, *, div 加減乘除
--------------------------------------------------------
mod 取模
--------------------------------------------------------
| 兩個節點一起計算
--------------------------------------------------------

4.4 功能函式(Functions)

在XPath裡有很多功能函式可以幫助我們精確尋找需要的節點。

count()功能
作用:統計計數,返回符合條件的節點的個數。
舉例:<p><xsl:value-of select="count(PERSON[name=tom])"/></p>
說明:程式碼的用途是顯示PERSON元素中姓名屬性值為tom有幾個。

number()功能
作用:將屬性的值中的文字轉換為數值。
舉例:<p>The number is: <xsl:value-of select="number(book/price)"/></p>
說明:程式碼的用途是顯示書的價格。

substring() 功能
語法:substring(value, start, length)
作用:擷取字串。
舉例:<p><xsl:value-of select="substring(name, 1, 3)"/></p>
說明:程式碼的用途是擷取name元素的值,從第一個字母開始顯示到第三個。

sum()功能
作用:求和。
舉例:<p>Total Price = <xsl:value-of select="sum(//price)"/></p>
說明:程式碼的用途是計算所有價格的和。

上面這些功能只是XPath語法中的一部分,還有大量的功能函式沒有介紹,而且目前XPath的語法仍然在不斷髮展中。通過這些函式我們可以實現更加複雜的查詢和操作。

看到這裡,我們的入門教程就快結束了。通過走馬觀花式的快速學習,希望大家對XSLT應該有了一點基本概念:XSLT是一種轉換XML文件的語言,它包含兩個過程:轉換和格式化。XSLT的功能比CSS強大得多,它有類似資料查詢的語法。如果您對XSLT感興趣,那麼以上的知識是遠遠不夠的,需要查詢更多的資料。阿捷在最後一章附錄為大家提供了主要的XSLT資源。



_____________________________________________________________________________

我使用XmlNode.SelectNodes(XPath)來查詢xml檔案中的節點.
XPath可以是"descendant::book[author/last-name='Austen']"表示圖書中作者為Austen的人
如果我想找作者是Austen並且價格為19.5的書,怎麼寫這個XPath 表示式呢?

可這樣寫"descendant::book[author/last-name='Austen'][price='19.5']",就可以實現組合查詢。

檢視原文