JS區分中英文字元的兩種方法: 正則和charCodeAt()方法
JS區分中英文字元的兩種方法: 正則和charCodeAt()方法。
正則無疑是最強大的判斷各種條件的方法, 最近也在研習它, 雖然枯燥, 但仍有樂趣. 用它來判斷一個雙位元組的中文字元也是輕而易舉地. 而判斷中文字元, 簡單且執行效率高.
regExpForm.onblur=function(){ entryVal=this.value; entryLen=entryVal.length; cnChar=entryVal.match(/[^\x00-\x80]/g);//利用match方法檢索出中文字元並返回一個存放中文的陣列 entryLen =cnChar.length;//算出實際的字元長度 }
第二種方法是通過charCodeAt()方法判斷Unicode碼值, 若大於255即為中文字元, 它的執行效率沒有正則高, 也沒有正則簡單.
entryVal=this.value; entryLen=entryVal.length; for(var i=0;i<entryVal.length;i ){ if(entryVal.charCodeAt(i)>255){//遍歷判斷字串中每個字元的Unicode碼,大於255則為中文 cnArr.push(entryVal[i]);//講符合條件的值插入到中文字元陣列中 //注意一個小bug,push是向陣列的末尾新增一個或多個元素並返回新的長度,所以未重新整理的情況下反覆blur會累加字元值 } } entryLen =cnArr.length;
例項
function getLength(){
var str='',n=null;
for(var i=0;i<str.length;i++){
if(str.charCodeAt(i)>=0&&str.charCodeAt(i)<=256){n+=2;}
else{n+=1;}
}
}
2、正則表示式
一般的中文字符集用[ \u4e00-\u9fa5]即可,若想要匹配多種型別漢字或者其他的特殊字元,可以用 [ \u2E80-\uFE4F]。
用法:var len=str.match(/[\u4e00-\u9fa5]/); //可以返回含有中文字元的陣列。
console.log(2*len.length); //即可得到漢字字串的字元個數
例項
/*獲取數字部分:Unicode編碼值範圍在[48~57]之間即為數字
*獲取英文字母部分:Unicode編碼值範圍在[65~90],以及[97~122]之間即為英文字母
*獲取中文部分(大於122)
*/
//charCodeAt()方法
function get(str) {
var saveNum = new Array(); //接收數字
var saveLowerLetter = new Array(); //接收大寫英文字母
var saveUpperLetter = new Array(); //接收小寫英文字母
var saveChina = new Array(); //接收中文
for(var i=0; i<str.length; i++) {
if((str[i].charCodeAt()) >= 48 && (str[i].charCodeAt()) <= 57) {
saveNum.push(str[i]);
}else if((str[i].charCodeAt()) >= 65 && (str[i].charCodeAt()) <= 90) {
saveUpperLetter.push(str[i]);
}else if((str[i].charCodeAt()) >= 97 && (str[i].charCodeAt()) <= 122) {
saveLowerLetter.push(str[i]);
}else if ((str[i].charCodeAt()) > 122) {
saveChina.push(str[i]);
}
}
document.write(saveNum + "<br>"); //1,2,3,4,1,8,7,2
document.write(saveLowerLetter + "<br>");//l,a,l,a,l,l,a
document.write(saveUpperLetter + "<br>");//H,A,H,A,H,A
document.write(saveChina + "<br>"); //我,是,喵,喵,喵,嘿,嘿
}
get("我是1234喵喵喵lalalla嘿嘿HAHAHA1872");