JavaShuo
栏目
标签
千万级巨型汉语词库分享
时间 2020-07-19
标签
千万
巨型
汉语
词库
分享
繁體版
原文
原文链接
算法+语料≈NLP 这是一个六千万词汇量的分类词库,作HanLP这么久,我逐渐体会到,算法没法解决全部问题,词库也很是重要。一般一个算法能够解决80%的问题,剩下的20%不管怎么调节优化,都是拆东墙补西墙。好比上次我提到的“区人保”被HMM人名识别模块误命中的例子,这个词让HMM来看,“区”做为姓氏,“人”“保”做为名字的二三字的确很是有可能,可是正常人都不会取这个名字。要是我把“人”“保”这两个
>>阅读原文<<
相关文章
1.
百万级通过验证的分词词库,千万级Ngram
2.
千万级数据库分页优化
3.
汉语分词初探
4.
天然语言处理:汉语分词
5.
MySQL 百万级分页优化(Mysql千万级快速分页)
6.
千万级微博语料数据
7.
千万级别的数据库优化
8.
千万数据的分库分表(一)
9.
千万数据的mysql分库分表
10.
汉语自动分词基本算法
更多相关文章...
•
W3C词汇和术语表
-
网站建设指南
•
SQLite 分离数据库
-
SQLite教程
•
Kotlin学习(二)基本类型
•
Kotlin学习(一)基本语法
相关标签/搜索
汉语分词
千千万万
千万千万
千千千万
千言万语
巨型
汉语
千万
万千
词库
R 语言教程
NoSQL教程
MySQL教程
数据库
0
分享到微博
分享到微信
分享到QQ
每日一句
每一个你不满意的现在,都有一个你没有努力的曾经。
最新文章
1.
windows下配置opencv
2.
HED神经网
3.
win 10+ annaconda+opencv
4.
ORB-SLAM3系列-多地图管理
5.
opencv报错——(mtype == CV_8U || mtype == CV_8S)
6.
OpenCV计算机视觉学习(9)——图像直方图 & 直方图均衡化
7.
【超详细】深度学习原理与算法第1篇---前馈神经网络,感知机,BP神经网络
8.
Python数据预处理
9.
ArcGIS网络概述
10.
数据清洗(三)------检查数据逻辑错误
本站公众号
欢迎关注本站公众号,获取更多信息
相关文章
1.
百万级通过验证的分词词库,千万级Ngram
2.
千万级数据库分页优化
3.
汉语分词初探
4.
天然语言处理:汉语分词
5.
MySQL 百万级分页优化(Mysql千万级快速分页)
6.
千万级微博语料数据
7.
千万级别的数据库优化
8.
千万数据的分库分表(一)
9.
千万数据的mysql分库分表
10.
汉语自动分词基本算法
>>更多相关文章<<