简单地实现文章的查重

最近想要做一个查重程序,目的是检测大学生提交的电子文档的重复率。 最初的想法是是参考之王的论文查重,但是发现他有自己的弊端,也就是说知网论文查重的算法能对标准的论文进行有效的查重。但是对于学生提交的电子档作业就不一定行了。 我们先来看一下知网论文查重原理: 1:知网论文查重由于是采用了最先进的模糊算法,如果整体结构和大纲被打乱,可能会引起同一处的文章检测第一次和第二次标红不一致或者第一次检测没有标
相关文章
相关标签/搜索