关于利用Jsoup解析HTML中 ;变成非传统空格或乱码问题解决方法

在写爬虫的时候不少时候会遇到这种问题:HTML中源码显示 ;没问题,可是利用Jsoup的text()方法获取的文字就会出现问题,通常状况是 ;变成非传统空格或者乱码,这样在解析的时候想切分字符串会没法成功。由于 ;是ISO-8859-1的西欧编码,空格的编码为160,而咱们普通使用的ASCII的空格编码是32.这样就会产生不少麻烦。编码 因此在利用Jsoup进行解析的时候要
相关文章
相关标签/搜索