Java之提取html中的文本内容

使用lucene创建索引时,碰到文本是html类型的,但须要的是对其中文本内容进行分析并索引,html标签等应该排除在外,所以应该从html中提取文本内容html 思想以下: 使用jsoup对html文档进行解析,每一个html标签(Element)、文本(TextNode)都抽象成一个Node,每个Node都含有childNodes()方法来枚举其包含的Node,这里经过递归来提取文本内容,对于
相关文章
相关标签/搜索