NLP中基本概念入门

词向量(Word Embedding)   词向量主要用于将天然语言中的词符号数学化,这样才能做为机器学习问题的输入。web   数学化表示词的方式不少,最简单的有独热编码,即“足球”=[0,0,1,0,0,0,0,…],“篮球”=[0,0,0,0,0,1,0,…],向量的长度为总词数。显然,独热编码有如下缺点:1.可能致使维数过大,对深度学习来讲复杂度太高。2.两个词的类似程度没法表示。机器学习
相关文章
相关标签/搜索