將HTML中的特殊字元轉化為可顯示的字元

阿新 • • 發佈：2019-01-07

很多時候叢網頁中抽取的內容中都含有很多特殊的轉義字元，網頁中顯示的要麼是實體名稱，要麼是實體編碼，如

顯示	說明	實體名稱	實體編號
半方大的空白	&ensp;
全方大的空白	&emsp;
不斷行的空白格
<	小於	<	<
>	大於	>	>
&	&符號	&	&
"	雙引號	"	"
©	版權	©	©
®	已註冊商標	®	®
™	商標（美國）	™	™
×	乘號	×	×
÷	除號	÷	÷

原理是根據實體編碼中的數字，得到對應的字元。但上述方法不支援將實體名稱轉化為可顯示字元，如能將"""轉化為雙引號，卻不能識別"""。這次沒有固定的規律，只能自己作映射了。比較折中的做法是轉化如下幾個常見的：

>	>
"	"
&nbsp
'	‘

修改後的程式碼如下：

/**
 * Convert HTML character enitities(Unicode) to part of a Java String
 */
import java.util.regex.*;

public class UnicodeCeToJavaString {
	static final String mbs = "&#(\\d+);"; // like "ロ"

	public static String EncodeCesToChars(String paramStr) {
		paramStr = paramStr.replace("&","&")
		        .replace("<","<")
		        .replace(">",">")
		        .replace(""","\"")
		        .replace(" "," ")
		        .replace("'","'");
		
		String mbChar;
		StringBuffer sb = new StringBuffer();
		Pattern pat = Pattern.compile(mbs);
		Matcher mat = pat.matcher(paramStr);
		while (mat.find()) {
			mbChar = getMbCharStr(mat.group(1)); // pass the digit part
			mat.appendReplacement(sb, mbChar);
		}
		mat.appendTail(sb);
		return new String(sb);
	}

	/* worker method */
	static String getMbCharStr(String digits) { // handle "12525" part which is
												// a
		char[] cha = new char[1]; // Unicode value stringnized
		try {
			int val = Integer.parseInt(digits);
			char ch = (char) val;
			cha[0] = ch;
		} catch (Exception e) {
			System.err.println("Error from getMbCharStr:");
			e.printStackTrace(System.err);
		}
		return new String(cha); // easy!, because Java uses Unicode
	}
	
	public static void main(String[] args) {
		System.out.println(UnicodeCeToJavaString.EncodeCesToChars("George&#39;s War in North America"));
	}
}

將HTML中的特殊字元轉化為可顯示的字元

很多時候叢網頁中抽取的內容中都含有很多特殊的轉義字元，網頁中顯示的要麼是實體名稱，要麼是實體編碼，如顯示說明實體名稱實體編號半方大的空白 &ensp;   全方大的空白 &emsp;   不斷行的空白格

將字串中的數字轉化為文字

String ids = "1,2,3"; String[] industryIdsArr = ids.split(","); String str = ""; if (industryIdsArr != null && industryIdsArr.length

php如何將html中的br換行符轉換為文字輸入中的換行符

PHP中的有個非常好的函式：nl2br()，將文字框中的換行轉換為HTML頁面的<br />，但是如何實現將html中的<br />換行符轉換為文字框中的換行符呢？下面這幾個方法將能夠幫你解決這個問題。 PHP版將html中的<br /&g

將python指令碼轉化為可執行檔案exe

1、安裝pywin32 2、安裝pyinstaller 3、將需要轉換的.py指令碼拷貝至pyinstaller安裝資料夾下 4、在cmd控制檯下進入安裝目錄下，並且執行如下命令 python

如何讓在Html中特殊字元不被轉義（如等）

問題： <textarea></textarea>之間包含有類似的這種轉義字元的時候總會被解析，倒是可以把所有的"&"通過程式替換成"&"，但是有些本來就是"&"的也會被轉換，這就錯了。如何讓<textarea&g

讀取深度快取中的深度值，並將其螢幕2D座標轉化為場景3D座標

mouse_x=LOWORD(lParam);//滑鼠的x座標 mouse_y=HIWORD(lParam);//滑鼠的y座標 glGetDoublev(GL_MODELVIEW_MATRIX, modelview);//檢視矩陣 glGetDoublev(GL_PROJECTION_MAT

如何將枯燥的大數據呈現為可視化的圖？

大數據可視化將數據轉化成可視化圖表/形，其實一個工具就能完成，礙於工具太多，按照使用場景，暫且將已成熟應用的分為三個層次：第一層：數據報告、信息圖這裏統稱信息圖。信息圖是把數據、信息或知識可視化，必須要有一個清楚準確的解釋或表達甚為復雜且大量的信息。代表人物是新聞界的David McCandles

jqurey 將如2017-5-30轉化為時間戳或者時間戳轉化為日期的js方法

jqurey 將如2017-5-30轉化為時間戳或者時間戳轉化為日期的js方法<script> function datetime_to_unix(datetime){ var tmp_datetime = datetime.replace(/:/g,‘-‘);

將一個 JavaBean 對象轉化為一個 Map

一個影響 iba [0 全部調用 intro try acc package com.loan.modules.common.util; import java.beans.BeanInfo; import java.beans.IntrospectionExcep

poj3735—Training little cats（特殊操作轉化為矩陣操作）

logs cout att 接下來 tor 成了 pre 組成 little 題目鏈接：http://poj.org/problem?id=3735 題目意思：調教貓咪：有n只饑渴的貓咪，現有一組羞恥連續操作，由k個操作組成，全部選自： 1. g i 給第i只貓咪一顆花生

php 怎樣將有範圍的ip轉化為整型範圍

ng2 正常而且 sql 問題例如 pan 比較 cti php中將IP轉換成整型的函數ip2long（）容易出現問題，在IP比較大的情況下，會變成負數。如下: <?php $ip = "192.168.1.2"; $ip_n = ip2long($ip); e

Python Cookbook(第3版)中文版：15.12 將函數指針轉換為可調用對象

一點 lock ont pen lan 接下來 result 底層 3.0 15.12 將函數指針轉換為可調用對象? 問題? 你已經獲得了一個被編譯函數的內存地址，想將它轉換成一個Python可調用對象，這樣的話你就可以將它作為一個擴展函數使用了。解決方案? ctyp

將一個字符串轉化為駝峰表示法表示

可選方法 length 正則 element cti arr char 參數方法很簡單，主要考察對字符串中split方法和slice方法的運用 split() 方法用於把一個字符串分割成字符串數組第一個參數是必需的，可以是字符串或正則表達式，從該參數指定的地方分割 s

書法字帖 PDF轉化為可打印PDF

div rap graph 灰度圖 one 多余 for command pre 書法類的PDF，因為底色是黑色的，打印起來特別費墨，所以需要轉化成白底黑字的文件，才好打印。 1）用 pdfbox 的 ExtractImages 命令，抽出所有的圖片 https:/

刷題筆記2——將字串中的空格替換為指定的字串

題目描述請實現一個函式，將一個字串中的每個空格替換成“%20”。例如，當字串為We Are Happy.則經過替換之後的字串為We%20Are%20Happy。 1、方法1 通過一個string物件來將元素不斷加入其中，加完以後找出空格，刪除即可內容介紹1 strin

BitmapFactory.decodeStream方法及如何將Raw中的圖片載入為Bitmap

結論將輸入流傳遞給 BitmapFactory.decodeStream(in) 方法，建立完成 Bitmap 之後，開發者一定要主動去關閉這個輸入流。否則，對輸入流執行 reset() 方法，則可以重新獲取輸入流中的所有資料，並且創建出一張新的圖片。從res-raw目錄下獲取一張Bit

linux系統如何將系統中的檔名改為英文？

由於我們經常在命令列模式下進入檔案，那麼中英文的切換常常會影響我們輸入的效率。那麼如何將原來的中文修改成英文的字幕呢？如下圖所示： -------------------------------------------------------------------------

python將mongodb中的圖片讀出為影象矩陣二進位制流轉為影象矩陣

上一篇寫到將mongodb中的影象讀出，但是讀出的資料型別為二進位制流，無法直接使用普通的影象處理模組來做。通過PIL中的Image和IO中的二進位制OI模組、numpy中的np.array(image)即可完成 from pymongo import MongoClient from

彙編-將輸入的十進位制數轉化為二進位制

把以ＡＳＣＩＩ形式表示的十進位制數轉換為二進位制數 .model small .386 .stack 200h .data ascval db '12345' binval dw ? .code main proc start: mov ax, @data mov ds, ax

如何將cmd中命令輸出儲存為TXT文字檔案

轉載來自：http://blog.sina.com.cn/zhanghongyas 在使用Windows XP中的cmd.exe工具時，有時候我們想要把我們的輸入命令及結果儲存起來，但是用複製的方法過於麻煩；有時輸出資料條數過大，會造成內容自動滾出螢幕，無法閱讀，我們可將命令執行的結果輸出到文字檔

將HTML中的特殊字元轉化為可顯示的字元

相關推薦