python实现中文文本分句

对于英文文本分句比较简单,只要根据终结符"."划分就好,中文文本分句看似很简单,可是实现时会遇到不少麻烦,尤为是处理社交媒体数据时,会遇到文本格式不规范等问题。下面代码针对一段一段的短文本组成了文档分句html import re def cut_sent(infile, outfile): cutLineFlag = ["?", "!", "。","…"] #本文使用的终结符,能够修改
相关文章
相关标签/搜索