毕业设计中须要利用NLP和ML技术来解决问题,这一个阶段对这些技术进行学习和应用。html
NLP 技术python
NLP学习主要参考书籍:用Python进行天然语言处理(中文) http://www.nltk.org/git
能够解决分词(stem和lamma)、分句、词性标注、以及wordnet同义词分析、句子结构分析、实体识别等 github
关于文法特征,还须要进一步阅读算法
另外目前最新的NLP相关工具实现,能够参考http://nlp.stanford.edu/机器学习
本文主要利用NLP技术来进行中英文分句、分词,以及在分词的基础上词性标注,并创建句法树,在句法树的上依据特征进行实体识别工具
ML: Machine Learning学习
主要采用SVM来进行异常检测,OC-SVM能够检测出同一个类别中的异常行为;以及SVM用来实现分类;实现采用scikit-learn机器学习包中svm库来解决 http://scikit-learn.org/stable/modules/svm.html设计
主题建模htm
利用LDA来对系列文本进行主题建模,实现类似文本聚类,以及关键词抽取,能够利用gensim主题建模包,https://radimrehurek.com/gensim/,支持中文
mallet 机器学习工具,仅支持英文
聚类算法
k-mean算法 http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html
scikit-learn 是python上不错的机器学习包,很方便使用
其它:CRF:条件随机域,统计模型用来样本标签预测;https://pystruct.github.io/