[wordpress搬家]nutch的二三事 — 数据清洗

[2013.12.27] css 好吧……这篇文章与nutch有关系也没有关系。html 在nutch把数据放入数据库之后,由于是非结构化的,因此咱们还须要从中提取咱们须要的数据,这时就须要清洗数据了。java 本身写一个小程序是颇有用的,Ade这里用的方法是远程jdbc连接数据库,获取webpage中的content字段,而后使用jsoup提取数据。node 选用jsoup的缘由是content
相关文章
相关标签/搜索