NLP和Machine Learning学习记录

 

  毕业设计中须要利用NLP和ML技术来解决问题,这一个阶段对这些技术进行学习和应用。html

  NLP 技术python

  NLP学习主要参考书籍:用Python进行天然语言处理(中文) http://www.nltk.org/git

  能够解决分词(stem和lamma)、分句、词性标注、以及wordnet同义词分析、句子结构分析、实体识别等  github

  关于文法特征,还须要进一步阅读算法

  另外目前最新的NLP相关工具实现,能够参考http://nlp.stanford.edu/机器学习

  本文主要利用NLP技术来进行中英文分句、分词,以及在分词的基础上词性标注,并创建句法树,在句法树的上依据特征进行实体识别工具

   ML: Machine Learning学习

   主要采用SVM来进行异常检测,OC-SVM能够检测出同一个类别中的异常行为;以及SVM用来实现分类;实现采用scikit-learn机器学习包中svm库来解决  http://scikit-learn.org/stable/modules/svm.html设计

   主题建模htm

   利用LDA来对系列文本进行主题建模,实现类似文本聚类,以及关键词抽取,能够利用gensim主题建模包,https://radimrehurek.com/gensim/,支持中文

   mallet 机器学习工具,仅支持英文

   聚类算法

   k-mean算法 http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html  

   scikit-learn 是python上不错的机器学习包,很方便使用

 

  其它:CRF:条件随机域,统计模型用来样本标签预测;https://pystruct.github.io/

相关文章
相关标签/搜索