维基百科简体中文语料的获取

  最近作实验须要较大规模的中文语料,很天然的就想到使用维基百科的中文数据。python   使用维基百科作训练语料有不少好处:正则表达式 维基百科资源获取很是方便,有 Wiki Dump 能够直接下载,全部的最新备份都在里面。最近的一次备份是3月底,也就是5天前。相比之下,其余不少语料都须要用爬虫抓取,或者付费得到。 维基百科的文档解析有很是多的成熟工具,直接使用开源工具便可完成正文的提取。 维
相关文章
相关标签/搜索