用java编写的爬虫,使用xpath爬取内容后,发现网页源码中的 所有显示为?(问号),可是使用字符串的replace("?", ""),并不能替换,网上找了一下,大概意思是显示的这个问号其实并非问号,是乱码,主要是因为编码的问题致使的。java
解决方法以下:编码
//替换抓取内容中“ ”变为问号的问题 try { intro = new String(intro.getBytes(),"GBK").replace('?', ' ').replace(' ', ' '); } catch (Exception e){ e.printStackTrace(); }
其中replace(' ', ' ')中,前面哪个空格是全角空格。spa
参考连接:.net