slogan:可能不是最快的开源中文分词,但极可能是最准的开源中文分词java
仓库地址python
论文"Neural Networks Incorporating Dictionaries for Chinese Word Segmentation", AAAI 2018 源码git
仓库地址github
多标准中文分词的简单解决方案算法
仓库地址数据库
结巴中文分词api
仓库地址网络
NLPIR是一套专门针对原始文本集进行处理和加工的软件,提供了中间件处理效果的可视化展现,也能够做为小规模数据的处理加工工具。框架
仓库地址机器学习
使用神经网络实现的命名实体识别,简单易用并达到state-of-the-art的效果。
基于tensorflow深度学习的中文的命名实体识别
仓库地址
“结巴”中文分词:作最好的 Python 中文分词组件
将天然语言转换为结构化数据
仓库地址
Rasa NLU (Natural Language Understanding) is a tool for understanding what is being said in short pieces of text. For example, taking a short message like:
"I'm looking for a Mexican restaurant in the center of town"
And returning structured data like:
intent: search_restaurant entities: - cuisine : Mexican - location : center
Investigation of Recurrent Neural Network Architectures and Learning Methods for Spoken Language Understanding
快速的实体连接工具集,实现mention链接到Wikipedia。
论文"Probabilistic Bag-Of-Hyperlinks Model for Entity Linking"的源码。
CN-DBpedia提供全套API,而且免费开放使用。
Entity Linking,识别给定文本中出现的命名实体(Named Entity),并映射到特定的知识库中惟一的实体。包括命名实体识别、消歧等工做。
The Semanticizer是2012年由Daan Odijk开发的用于语义链接的应用。
针对文本文档和HTML的自动文摘python模块。 https://pypi.python.org/pypi/sumy
百度开源的Familia 开源项目包含文档主题推断工具、语义匹配计算工具以及基于工业级语料训练的三种主题模型:Latent Dirichlet Allocation(LDA)、SentenceLDA 和Topical Word Embedding(TWE)。
微软开源的方便快捷轻量的大规模主题建模系统 http://www.dmtk.io
经典论文Convolutional Neural Networks for Sentence Classification (EMNLP 2014). 的大牛做者的源代码。
使用TensorFlow实现的简单的用以文本分类的CNN模型。
主要用于文本分类,其中涉及CHI选择特征词,TFIDF计算权重,朴素贝叶斯、决策树、SVM、XGBoost等算法, 实现传统的文本分类并取得了不错的效果。
TensorFlow搭建cnn文本分类模型
使用卷积神经网络以及循环神经网络进行中文文本分类.基于TensorFlow在中文数据集上的简化实现,使用了字符级CNN和RNN对中文文本进行分类,达到了较好的效果。
THUCTC(THU Chinese Text Classification)是由清华大学天然语言处理实验室推出的中文文本分类工具包,可以自动高效地实现用户自定义的文本分类语料的训练、评测、分类功能。
使用TensorFlow构建的用于多类别分类的 CNN, RNN (GRU and LSTM)模型。
YodaQA 是一个开源的事实型问答系统,他可以利用即时的信息抽取从数据库和非结构化的文本语料中抽取答案。在Freebase和DBPpedia上表现优异。
ChatterBot 是一个用于构建chatbot的集成了机器学习的对话引擎,。http://chatterbot.readthedocs.io
使用TensorFlow实现论文A Neural Conversational Model 中的google的聊天机器人(seq2seq方法)。
使用Torch实现论文A Neural Conversational Model 中的google的聊天机器人(seq2seq方法)。
4)的中文情境下的实现。
使用python的chatbot框架。
基于向量匹配的情景式聊天机器人。
使用TensorFlow实现的Sequence to Sequence的聊天机器人模型。