7.21html
7.20python
FudanNLP主要是为中文天然语言处理而开发的工具包,也包含为实现这些任务的机器学习算法和数据集。FudanNLP及其包含数据集使用LGPL3.0许可证。主要功能包括:git
信息检索:文本分类,新闻聚类。github
中文处理:中文分词,词性标注,实体名识别,关键词抽取,依存句法分析,时间短语识别。算法
结构化学习:在线学习,层次分类,聚类,精确推理。chrome
工具采用Java编写,提供了API的访问调用方式。下载安装包后解压后,内容以下图所示:微信
文本主题发现(一)-- 数据预处理dom
公众号后台回复关键字便可学习机器学习
回复 R R语言快速入门及数据挖掘
回复 Kaggle案例 Kaggle十大案例精讲(连载中)
回复 文本挖掘 手把手教你作文本挖掘
7.19
7.9
#参考资料:https://blog.csdn.net/wang7807564/article/details/78164855/ #打开文件 读取时使用二进制 rb,解码再用 gbk with open("idiom corpus/corpus_面目一新.txt",'rb') as f: for line in f: line = f.readline() print(line.decode('gbk'))
7.5
7.4
基于非平行语料的双语词典构建 张 檬 刘 洋 孙 茂松
google 计算机在词典编纂中的做用
goole idom exemplification classification extraction'