NCR字符编码（形如&#xxx）转换为汉字 in JAVA

时间 2019-11-11

原文原文链接

numeric character reference（NCR），数字取值为目标字符的 Unicode code point；以「&#」开头的后接十进制数字，以「&#x」开头的后接十六进制数字。html

「中国」二字分别是 Unicode 字符 U+4E2D 和 U+56FD，十六进制表示的 code point 数值「4E2D」和「56FD」就是十进制的「20013」和「22269」。因此——
java
&#x4e2d;&#x56fd;&#20013;&#22269;
——这两种 NCR 写法都会在显示时转换为「中国」二字。浏览器

转自 &#x开头的是什么编码呢。浏览器能够解释它。如中国等同与中文"中国"?
app

在爬取人人网的学校各个院系名称结果时，获得的数据以下：jsp

<select id='department' name='department' class='select' tabindex='6' onchange='changeDept()'>
<option value=''>&#38498;&#31995;</option>
<option value='&#20020;&#24202;&#21307;&#23398;&#38498;'>&#20020;&#24202;&#21307;&#23398;&#38498;</option>
<option value='&#20132;&#36890;&#23398;&#38498;'>&#20132;&#36890;&#23398;&#38498;</option>
<option value='&#20154;&#25991;&#19982;&#31649;&#29702;&#23398;&#38498;'>&#20154;&#25991;&#19982;&#31649;&#29702;&#23398;&#38498;</option>
<option value='&#20154;&#25991;&#23398;&#38498;'>&#20154;&#25991;&#23398;&#38498;</option>

这其中形如 '临床医学院' 的即是NCR编码了，使用UNICODE在线转换工具能够将其直接转换为汉字，但事实上它又不是UNICODE，区别彷佛就在于Unicode是以u\进行分割，而NCR是以&#进行分割。后面数字字母内容是同样的，都有十进制与十六进制两种表示形式函数

在国内网上搜索NCR编码转换原文字，无果。在stackoverlow上找到了一种方法in JAVA 试了一下能够运行，没想到并不须要什么函数，只要一个（char）的强制转换就行。。虽然原理仍是不太彻底明白
工具

public static String ConvertDecimalNCRToString(String hex){
    String myString = hex.replace("&#", "");
    String[] split = myString.split(";");
    StringBuilder sb = new StringBuilder();

    for (int i = 0; i < split.length; i++) 
    {
        sb.append((char)Integer.parseInt(split[i]));
    }
    return sb.toString();}

参考连接：Convert Decimal NCRs Code into UTF-8 in java (JSP)
ui