论场景在研发中的重要性

时间 2019-12-11

标签场景研发重要性繁體版

原文原文链接

随着中国改革开放程度的加深，互联网行业也逐渐出现变革，典型的变化就是由原来的低端重复性造轮子，逐步转向高端，以技术创新为主导。一个有力的证实就是近年来以技术驱动的创业公司愈来愈多，这在10年前是不可想象的。在人才要求上，对工做经验再也不那么看重，而更加剧视求职者的学历，专业，背景。程序员

在这样的背景下，一些原来传统的互联网大公司，将逐步失去竞争优点。固然事实上也没这么邪火，这个变化是缓慢的，也有许多公司不肯意接受应届硕士，嫌弃他们没有Ai经验。由于他们认为学术界和工业界有鸿沟。可是一些真正以技术创新驱动的Ai公司，更加青睐于高学历，有研发背景的海归。说句实话，目前国内的Ai，可以搞的起来的，也就那么几家而已，其他的都是炒做。一些新兴的Ai创业公司，除了商汤，依图，云从，旷视外，nlp领域并无出现独角兽。因此重点谈一下nlp。算法

3月10号北理工举办了一场知识图谱研讨会，与会邀请了9位学术界和工业界的专家。在最后1个小时的问答环节里，有听众向专家提出了这么一个问题：招聘网站要作求职者和jd的匹配度，如何解决这样的问题?专家捣鼓了半天，最后也没给出使人满意的答案来。其实我认为，真正能解决问题的人，还不必定就是这些学术界的专家。都说场景是Ai第一要素，若是一我的成天期望着发论文活着，那么他的思惟里，对场景的概念应该是淡化的。迄今为止，见到过的最务实的研发应该数阿里的达摩院了。阿里有真实海量的数据，有明确的落地场景，在这样的背景下砸1000亿搞研发，是比较靠谱的。函数

以前我有一个观点，那就是研发Ai方案以前，必定要把人类自身对于特定场景的逻辑搞明白了，从中抽象出数学模型出来。而后作现有算法模型与场景的匹配度，若是全都匹配不上，那就在原来的基础上从新整合出的模型出来。可是很遗憾，不少工业界的程序员并无意识到这个问题，对于一个算法，他的核心历来不是公式推导，而是这个算法是如何产生的，能解决哪些问题，不能解决哪些问题，以及算法的缺陷和改进的方向。说白了，研发就是把握好大的方向，好比深度学习在语义理解中承担什么样的角色？不少学者追捧如何改进seq2seq,论文满天飞，从个人角度来看，这些工做是没有太大的实际意义的。包括机器翻译，单纯依靠NMT也是不切实际的。固然，seq2seq对于描述性的文本，是很好的。对于描述性的文本，深度学习都会发挥很好的效果。缘由就是描述性的文本，规则不是很强，更须要向量这种语义表示来作语义类似度运算，这就是场景的问题了。而对于规则性强的场景，翻译就得靠规则和语义类似度替换了，而对于商品标题这类问题，因为大部分标题都是拼凑的，并非很符合语法，因此用seq2seq效果会不好的，这个时候统计建模就会发挥做用了。学习

之前面提到的招聘网站jd匹配问题，专家在筛选简历的时候和hr确定不同。因为hr不懂技术，在看简历的时候，更可能是依靠规则，一条一条地比对，而每条规则的比重是不一样的。好比老板要求学历是至高无上的，那么hr在看简历时，每每先看学历，一看不是海归，或者985硕士博士，直接pass掉了。这就基于规则的逻辑，一条一条地看，评分，最后给出综合的印象。而一样的场景，技术专家筛选简历，除了这些规则外，他们会重点关注候选人的技术，自学能力，潜力，尤为是一些描述性的文本，会重点关注。因此每每hr认为不合适的，技术专家反而认为合适。那么，这样的一个场景，很显然咱们作模型匹配度的时候，是必须考虑二者的因素的。对于第一因素规则，这些规则实际上是有优先级关系的，好比划分为重要，必要，次要三个级别，每一个级别对最后综合得分的贡献度不一样，也就是权重不一样。在人工干预的阶段，把这些规则全都罗列出来作处理。而这些规则会大量出如今结构化的文本中，由于一篇简历，总体会包括结构化的文本和描述性的文本两部分。好比公司的实验室想招聘AI研发人员，那么学历，学校，专业的优先级就是重要的，获奖状况，背景平台是必要的，那么毕业时间等其余因素就是次要的。这些规则的权重不一样，最后加权求和获得基于规则的得分。网站

具体方案如上图所示：其中u为根据规则获得的类似度分数，最后求总分的时候引入平滑系数，是由于两部分的比重在实际中是不一样的，须要手动调节。采用MSE做为损失函数。另外在jd中，有的描述，好比可以修改lucene源代码等，若是采用规则，效果会很是差，由于大部分程序员都是仅仅会使用lucene而已。因此简历中出现了lucene,并不表明就合适。翻译

以前有人问过我，他们公司作的抽取，要求抽取出高管，基于规则很是差，准确率只有70%多，不知道怎么解决。一句话，知识图谱是良方。blog

学会case by case，远比死学算法知识重要，仍是那个观点，对于AI算法，推导不是核心。深度学习