还是别看学位论文

最近我实验室的一个组在做疫情预测的工作。效果还行,论文也写的差不多了。不过上面的老师说引的文章都太老了,让再加点新的。于是今天下午我就和大家一起看文献。

之所以之前引的都比较老,主要是因为传染病预测这块分两派,一派是理论建模派,主要工具就是微分动力模型,一般医院等非数理统计背景的机构(包括新冠疫情这段时间网上那些“数学模型告诉你为什么呆在家里”)喜欢用这个,因为直接对接传染病理论,列几个微分方程就能求出函数来,十分清晰。缺点就是可能没什么用,因为现实里的很多复杂情况不是你加几个方程就能cover的了的。这块的文献是经常有各路牛蛇鬼神出来更新,但大部分都是对不同方程组套在不同传染病上的排列组合,其实都是一样的,花时间把新发的垃圾文章找过来引用也没多大意义。二月新冠刚爆发的时候,我也窝在家里做了个这种模型,引入了跨地区传播的机制,之后把全国所有城市的数据都输了进去,它可以进行很精致的模拟,感觉特别好玩。不过没等调好就被学校的事压住了,等调好了可以开源给大家看看。

另一派就是统计方法派,也就是我们这次文章所属的派别。统计领域一向是由果所因,大家都懂。这一派关于传染病预测的文章相对而言就少很多。原因可能是数理统计和计算机的人对传染病这种医学领域的东西不太感兴趣。但我们的文章还要基于这类文献进行对比分析,找不出新的就只能用老的。

不管怎么说,上面发话了就还是得尽量找新的。其实本来这就是一个我随便提的idea,当备胎用的。不过实现了之后意外发现效果还不错,就弄成文章了。但确实一开始没上什么心,因为算法上不复杂(可以说很简单),原理也很清晰(这是优点,不过对发文章可能是缺点),我不觉得这能是个什么多好的文章,也没把他当什么。但今天读了这一下午统计方法传染病预测的其它论文,我就有点动摇了,甚至担心这文章可能投低了——想起之前听老师说过的一句话:

你是真不知道你的对手是什么水平的啊(狗头)

一起来欣赏一下。

 

首先是中国TOP3之一的中科大某位硕士生的大作:

国内外研究现状……还能这么写的吗?都知道热点领域要引近五年近三年的文章,虽然统计学传染病预测这是冷点领域,但你也不用引用几千年前的吧?国内外研究现状分析,“国内”的“研究现状”就是阴阳五行运气说,这可能是中国学者被黑的最惨的一次(x

不仅introduction里要说(黑?)一波中医,实际模型里也真的要引中医学经典著作……黄帝内经?

这…………确实不能说天气和传染病传播没关系,但能不能找个靠谱的来源?就算没有理论解释,整个统计学上的显著性也行啊。结果你就一句“黄帝内经里说了三年化疫”……真就中医世家呗?这答辩也能过?全体中医世家?

想到有个浙大诉讼学的邹博士在知乎上发了他的硕士论文,内容大概是从哲学角度论述为什么永远不可能实现完全的人工智能判案。然后被师老党立的和师老党立的粉丝一顿群嘲,浙大博士就这水平?不亏勃三本。其实邹博士那个文章只是高大上的选题和一点也不新颖也不instersting的论述形成了反差,要说内容上错了也谈不上。如果邹博士论文=>浙大三本,那从这个论文来看……科大大概100本了。

BTW,最后一看见这个好像笑不出来了:

 

上面这个属于奇葩。下面这个可能是许多人写毕业论文时候的情况:

介绍别人工作,一顿分析猛如虎。等到自己做baseline实验的时候:

全是广义线性模型,误差都到姥姥家了。前面介绍那么多花里胡哨模型为啥不用?答案要么是不会编,要么是自己文章里做的模型会被那些反向吊锤(x

然后自己模型的结果是这样的:

全是样本内预测……也不能说不行吧,搞计量的最后实验挺多也是这个水平。误差水平……跟上面那些广义线性比肯定是吊打了,不过小小吹嘘一下,他这一个点差好几千的水平还够不上我们那文章里的样本外baseline效果。

写成这样虽然说看着不好,但也可以理解。毕竟大部分人升学就是为了要个学历,毕业论文这玩意过了就行。很多东西是真的不会,要是非得使劲扣,估计头发要掉光。不过水也分几个档次,这就属于中下档——实验一看就给人一种非常native的感觉,要真答辩时候被刁难一番,这关就不过去了。

之前我组做别的东西的时候发现一种水法相比之下就高很多,当时看了一篇学位论文,感觉不错,准备复现里面的代码,写着写着发现有个地方的错的——会卡在递归里出不来。我们一起讨论了下,想了一个补丁给它打上,算是把这个BUG修好了。后来一想,他这个算法有可能自己根本没实现过。如果说不会然后瞎说很可耻,自己设计的东西自己实现不了这也算相当“可耻”了,但对于这篇文章来讲,你没办法实锤,因为他的算法的这个部分是“口述”的(没写伪代码),就算你跟他当面对质,他也可以说是写漏了,表面上根本看不出来。

今天这波阅读也让我坐实了一个观点,就是如果有得选择,不要看学位论文。从统计的角度也可以看出这个观点的合理性:搞研究的人里,有真心在搞的,也有只想毕业的混子。期刊和会议这种“小论文”每个人都会发,但真心搞研究的肯定会发的更多。也就是随机选择一篇,有更大概率遇到一篇正经文章。而学位论文每个人(拿每个学位)只有一篇,翻到垃圾文章的概率就和人群中混子的比例相等了。虽然也有学术水车,但水车要在学术界混也得考虑自己学术声誉,实际“水文”的水平也是大于完全讲不通/没意义的垃圾学位论文的。关键学位论文在质量的数学期望低的前提下还特别长,有的垃圾文章还会伪装成特别有道理的样子,花了十几分钟看了几十页最后发现是在扯淡,那感觉大概像吃了奥里给一样。