做者:陈 钢算法
2006年,承蒙李国杰院士推荐,《中国计算机学会通信》发表了个人一篇文章“从ACM会议论文数量看差距”。该文就中国大陆学者在ACM会议上论文发表状况,将中国计算机科学同国际水平进行了比较和分析。得出的结论是,从论文发表角度看,当时中国的计算机科学同国外的差距很是大,尤为是在顶级会议上,中国的论文百里挑一,在很多重要会议上甚至是0。近十年来,中国计算机学术界发生了很大变化,在论文发表方面有了长足的进步。本文就近年来中国在ACM会议上发表论文的状况同2006年前的作一比较,用客观数据分析这方面的变化。此外,本文也对存在的问题发表一点我的见解及建议。数据库
须要说明的是,目前这一研究工做所收集的数据是不够完整的。主要缘由是ACM的数据格式不规范,一些会议记录没法提取数据,还有一些数据提取以后须要大量的后处理。目前总计收集了近26万条数据,数据分析工做量很大,所以数据集合依然有至关程度的不精确性。好比,在抽取到的会议信息中,有325条年份信息为空(这部分信息不包含在下文的统计分析中)。尽管如此,后续的分析工做也只能在这些数据上进行。不过,这些数据仍是可以让咱们对中国在ACM会议上发表的论文状况有一个大体的了解。编程
整体状况分析安全
历年累计状况分析编程语言
本次收集的历年会议论文记录总数为25.7813万条,其中中国论文数有7048条,占总数的2.73%。ACM会议累计总次数是5544次,中国大陆单位参加过的会议次数是1471,占总数的26%。在上述计算中,同一种类型的会议,开一次算一次。ACM共有1392种不一样的会议,中国参加过的会议种类有539个,占38.4%。所以还有超过60%的会议,中国从未参加过。不过这些会议中包括许多仅开过一两次的会议。分布式
ACM会议中,论文数量累计达到100篇以上的共348个。这组会议属于ACM会议中影响力比较大的会议。咱们将它们命名为ACM100。历年来,这组会议总计召开了3615次,其中中国参加过1132次,占31%。在ACM100中,中国单位参加过的会议种类有264个,占这组会议类别数的75.6%。ACM100的会议中发表过的论文总计23.2354万篇,其中中国发表的论文数6314篇,占总数的2.71%。见表1。ide
其中值得注意的是,中国历年参加过的会议仅占ACM会议总数1/4多,还有近3/4的会议,中国没有参加。仅在2014年,这样的会议就有157个,总计2510篇论文,占当年ACM会议论文总数(15302篇)的16%。这也说明中国在计算机科学的多样化上还作得不够。函数
以2006年为标志点分段比较工具
2006年,咱们统计到ACM有173个不一样类型的会议,8万多篇论文。因为此后ACM对数据进行了增补,咱们也改进了数据采集程序。因此本次统计到那一时期的ACM会议数达到420个,论文总数超过10万篇。本节采用此次统计的数据来对2006年以前和以后的ACM论文发表状况进行对比。性能
从表2中可见,2006~2014年这9年期间中国在ACM会议上发表的论文总数(6117篇)是1951年(ACM最先记录)到2005年这54年中(1471篇)的4倍;中国论文数占ACM论文总数的比例,2006年以后是以前的2.85倍。2006年以前,中国仅参加了16%的ACM会议;2006年以后,中国参加了33%的ACM会议,参加会议的种类比例则从29%上升到41%。
我国每一年在ACM会议上发表的论文数
图1显示,中国在ACM会议上发表论文的状况可分红三个阶段。第一阶段(棕线)是在2000年以前,中国每一年发表的论文数在15篇如下。第二阶段(红线)从2000~2008年,发表的论文数快速上升,从2000年的29篇上升到2008年的733篇,增加了25倍。第三阶段(黄线)是2008年之后,年论文发表数基本上在600~800篇之间徘徊。在2009年,论文发表数达到高峰,总计925篇,主要缘由是2009年有一个GEC会议,该会议来自中国的论文数达到140篇。该会在历史上仅此一次。若是去掉这个会议,那么2009年中国的论文数为785篇。
这一变化趋势,同ACM会议论文总数增加有必定的关系。刚好ACM会议论文总数也是在2000年到2008年之间有一个比较大的跳跃,2008年之后论文总数基本保持平稳。见图2。
所以,要考察中国在ACM的论文发表状况,最好的方式是看中国论文数占论文总数之比(下面称为“占比数”)。
在图3中,三阶段结构依然比较清楚。在2000~2008年期间,论文数出现了4~5倍的上升,2008年以后论文占比数保持平稳。
中国的“长处”与“短板”
数据显示,在有些ACM会议中,中国的论文数很是多。而在另外一批会议中,中国的论文数又很是少。
虽然中国在ACM的会议上发表的论文数大幅度增加,可是出现了一批基本上由中国人主办的ACM会议,发表的论文大都来自中国,也有个别会议基本上是由国内某个学校举办,并且只开一次。这些会议能够当作是发表英文论文的国内会议,或者是地区性会议,其中有些会议可能表明了国内的高水平的研究工做,好比Internetware(网构软件会议)。它们之后可能会发展成为有国际影响力的会议,可是目前还很难表明一个领域内的全球水平。据统计,中国论文数占到30%以上的ACM会议共有33种,其中中国论文数总计964篇。若是排除这一组论文,剩余的ACM中国论文数为:7048–964 = 6084篇。
另外一方面,还有一批中国不多参加的ACM会议。在这些会议中,有一部分是地区性会议,好比印度的软件会议。可是,还有至关一批是在某些领域有重要影响力的国际会议。在这些领域中缺乏来自中国的论文,反映了中国计算机科学的一些薄弱环节。在2010~2014年中,中国有三次以上没有参加的会议共有207种,包括一批一流国际会议。一般,核心领域的会议开会次数较多。所以,咱们找出历史达15年以上的会议共有67个。在这批会议中,中国在2000~2014年的15年中有10次以上没有参加过的会议总计23个,见表3。
表3反映了中国在计算机科学核心领域中比较薄弱的环节。这些会议基本上都是各领域中有重大影响的会议。
中国在计算机核心领域中的进步
在2005年对ACM会议进行分析时,咱们只找到了173个会议,而此次分析收集到的会议数量达到1392个,增长了8倍。这是由于ACM补充了数据,也有些是近年来新开的会议。在会议数量大幅增长的同时,也出现了一批并不能表明国际水平的会议。所以,有必要研究中国在高水平会议中论文发表状况究竟如何。咱们经过两种方式来选择“高水平”会议:一种是选取会议次数多的会议,另外一种是根据影响因子。
上节指出,召开15次以上会议的共有67个,大部分是在计算机核心领域中有影响力的国际会议。
由图4可见,从2000年开始,中国在计算机核心领域发表的论文数出现了一次飞跃,每一年论文发表数大致保持了线性增加。论文总数从2000年的18篇发展到2014年的353篇,至关于2000年的近20倍。从2005年的106篇到2014年也有3.4倍的增加。这一数据应该能够表明中国计算机科学的实质性发展。
这一轮的发展很是引人注目,1982~2000年的18年间,在这批ACM核心会议上,我国每一年的论文数大部分年份是在10篇如下徘徊,1994年和1995年,每一年仅有1篇ACM论文。自2000以后的15年中,论文数量日新月异,年平均增加率为22%。
不过,也应该注意到,在论文发表方面,各个领域存在严重的不平衡性。中国在这67个会议中总计发表了2439篇论文,其中有1317篇论文是在其中的6个会议中发表的,超过总数的一半。见表4。
下面再根据计算机会议的影响因子选取ACM会议。根据网上流传的据称来自CiteSeer的计算机科学会议影响因子表(近500个会议和杂志),从中选出了ACM会议。经过考察这批会议中中国每一年发表的论文状况,得出图5。
在图5中,论文数量的变化可分红三个阶段。第一阶段(1982~2000年),每一年论文数在6篇如下,其中有3年是0篇。第二阶段(2001~2006年),2001年论文数出现了一次跳跃性发展,达到20篇,是2000年的4倍。第三阶段(2007~2014年),在2006~2008年间又发生一次跳跃,论文数从2006年的78篇增加到2008年的233篇,今后论文数上了一个新台阶;2013年达到最高点的321篇,2014年回落到279篇。
从中国的论文数与ACM论文总数的比例来看,也具备三级跳模式。第一阶段,在2000年以前,中国论文所占比例在0.5%如下,1980年代平均值是0.38%,1990年代平均值比1980年代降低一半,仅为0.13%。第二阶段,2001~2006年,从0.77%上升到1.4%;在2008年以后,每一年中国论文占论文总数的比例平均值接近5%。见图6。
我国论文分行业发展状况
在文献中,咱们把ACM会议分红集成电路设计、体系结构、软件工程(包括数据库和人机界面)、图形学与多媒体、程序语言、新兴领域和其余骨干学科(包括操做系统,计算理论等)几大类。虽然这不是一个很合理的分类,但为了对照方便,本节依旧延续使用这一分类。
集成电路
表5第一列是会议简称,第二列是中国在2005年以前(含2005)在ACM会议上发表的论文累计数,第三列是2006~2014年之间中国在ACM会议上发表的论文累计数,第四列是2006年以后各个会议的论文总数,第五列是2006年以后每个会议的中国论文总数与ACM论文总数之比。
表5显示,中国在2006年集成电路行业的ACM会议上发表的论文总数是2005年以前发表的论文总数的746%。2006年以后,集成电路行业的每一个会议上中国论文数占ACM论文数的平均值为3.81%。状况最好的是FPGA会议,占了8.24%,说明中国在FPGA方面发展较好。最差的是SBCCI会议,仅为0.29%,不过这是巴西的一个会议,影响不大。在国际上有重大影响力的会议中,中国最弱的是CODES会议,论文数仅占总数的1.55%,可是2005年前,这个会议没有一篇中国的论文,如今累计有6篇,已是不小的进步。CODES会议已经同ISSS会议合并,内容主要是软硬件协同设计和系统级综合。DAC, ICCAD和DATE是集成电路行业的旗舰会议,一应俱全,涵盖了行业内许多子领域,同时也是顶级论文的发表场所。中国在这几个会议中的论文数分别有7~20倍的增加,发展势头良好。发展相对比较平稳的是物理设计ISPD会议,只有1.5倍的增加,可是接近3%的论文占比数并不明显落后于其余会议。
体系结构
表6显示,在体系结构方面,2006年以后同2005年以前相比,增加率刚好是6倍。在这8个会议中,2005年以前有5个是空白,如今全部会议上都有了中国的论文。因为体系结构方面的工做难度很大,所以这是一个很大的进步。值得注意的是,MICRO会议2005年前的文章其实都是在1993年以前发表的,所以,若是把2005年后10年和前10年相比,那么论文数增加率高达15倍。
平均而言,中国在体系结构方面的论文数仅占论文总数的2.55%,这个比率依然较低。但体系结构方面的顶级会议ISCA不但有了零的突破,并且占比达到2.29%,相对而言这是一个不错的成绩。
软件工程、数据库和人机界面
如表7所示,软件工程大类的发展速度是全部大类中比较快的,达到814%,超过8倍。在这个领域,中国论文占总论文数的比重超过7%,是全部领域中最高的。表7中ICIS的占比特别突出,达到22%以上,可是采集到的数据中2006年之后的会议仅包含2009年一次会议,而此次会议中大部分文章来自东亚国家。SIGSOFT会议在2010年以后更名为FSE(Foundations of Software Engineering),所以FSE的会议记录也加在SIGSOFT的会议记录中。
这个领域的发展至关不平衡,有3个会议占比在8%~22%之间,分别是计算机与信息科学会议(ICIS)、信息检索会议(SIGIR)、知识发现与信息挖掘会议(KDD);有6个会议的占比数(表7最后一列)不到1.6%,其中包括两个历来没有中国论文的会议AOSD和DIS;历史悠久的数据库原理会议(PODS),中国论文占比刚超过1%。另外有4个会议的占比数超过5%,其中包括另外一个历史很长的会议——超大规模数据库会议(VLDB)。
方差分析显示,这个领域会议的方差值为0.07,而体系结构、程序语言和VLSI(Very Large Scale Integration,超大规模集成电路)占比数的方差仅为0.017~0.02,二者之间有5倍左右的差别。这也说明该领域发展的不平衡。
图形学和多媒体
在2006年发表的文章中统计了这个领域中的7个会议(PVG, SCCG, SI3D, SCG, SIGGRAPH, VRST, MM)的状况。其中MM后来更名为MULTIMEDIA(多媒体会议),SCG会议在10年后更名为SOCG。
多媒体会议是中国在ACM会议中几个少见的强项之一,2005年前就有100多篇论文,近10年增加了3.65倍,占比超过21%。但这个领域的发展也极不平衡,5个会议中有两个会议的占比低于0.5%。图形学会议(SIGGRAPH)的中国论文数有8倍的增加,但占比仅为1.67%。整体而言,这个领域的发展速度是384%,平均占比5.97%。
程序语言
如表9所示,在2005年前,程序语言是全部领域中最薄弱的一个领域,9个会议中累计有7篇论文(体系结构是第二个薄弱领域,8个会议中有14篇论文)。不过,程序语言发展比较快,增加率达到900%,发展速度超过软件工程领域,居于第二名。可是其论文数占ACM总数之比依然是全部领域中最差的一个,仅为2%。
在各个会议中,发展速度最快的是面向对象程序设计会议(OOPSLA)、并行编程原理和实践会议(PPOPP)、以及代码生成与优化会议(CGO),分别有10~13倍的增加。POPL、PPDP和PERM有了零的突破,但3个会议论文总数仅为6篇,论文占比基本上在1%如下。函数式程序会议(ICFP)近10年没有论文。行业内两个顶级会议PLDI和POPL,偏应用的PLDI发展速度增加了三倍,占比达到1.67%;偏理论的POPL稍差一点,占比为0.67%。
新兴研究方向
2006年被列为新兴研究方向的会议,如今已经不算新了。但为了进行比较,下面的分析中还继续沿用了原来的分类名称。在这批会议中,DL会议在2000年以后没有记录。AGENTS会议2002年以后变成了AAMAS42。C&C会议数据收集不齐。所以,这里仅分析余下的几个会议。
互联网会议(WWW)的发展状况很好,占比达到11%以上,这同中国互联网的蓬勃发展有关。可是其余6个会议的占比均在1.5%如下,显示出发展不平衡的状况。这个领域平均发展速度是全部领域中最快的,达到1116%,可是这一发展速度主要来自互联网会议。若是去掉这一会议,则发展速度仅为393%,不到4倍,在全部领域中又是最慢的。
其余骨干会议
在其余骨干会议的分类中,包含了著名的操做系统会议(SOSP)、离散算法会议(SODA)、侧重于算法和计算复杂性等方面内容的计算机理论会议(STOC)和分布式计算会议(PODC)等。整体而言,论文增加幅度是509%,超过5倍。目前论文数占ACM论文总数的3%。
除了SAC和ISSAC两个会议以外,其余9个会议在2005年前的状况都不好,这9个会议历年来累计只有3篇文章,中国有6个会议的论文数是0;2006年之后,中国只有2个会议论文数是0。这9个会议中,中国论文累计数达到92篇,有30倍的增加。进步幅度最大的是计算机与通信安全会议(CCS),有50倍的增加;其次是离散算法会议,增加了18倍。分布式计算会议和计算机理论会议也有比较好的增加幅度,可是占比均不到1%,依然是中国的弱项。
计算机各领域发展状况比较
将2006年之后的论文累计数同2005年之前的论文累计数进行比较,各领域的增加状况以下(见图7)。
每一个领域的发展速度是指用这个领域2006年之后论文累计数除以2005年以前的论文累计数以后获得的百分比。其中,新兴领域发展速度最快,超过了11倍。这当中贡献最大的是互联网会议,发展速度为13倍。若是去掉互联网会议,这一领域其余会议的发展速度只有4倍。
除去新兴领域,发展速度最快的是程序语言,其次是软件工程。可是我国在这两个领域的研究实力倒是相反的。程序语言的整体实力最弱,而软件工程实力最强。不过软件工程内部的各个会议状况并不均衡,论文大量集中在ICIS, SIGSOFT, SIGIR和KDD四个会议上。
整体而言,体系结构、程序语言、集成电路和其余骨干领域中各个会议的中国论文增加速度相对而言比较均匀。而软件工程、新兴领域、图形图像这几个领域中会议之间的增加速度差别很大,发展不均衡。
咱们把2006年之后的论文总数同2005年之前的论文总数进行比较,各领域中的中国论文占ACM论文总数的比例状况如图8所示。
图8从一个侧面反映出计算机各个领域中,中国的研究水平在国际上的高低以及各个领域之间发展水平的相对强弱。从图8可见,在软件工程方面,中国发展最好,其次是新兴领域和图形图像。然而,这三个领域又刚好是发展最不平衡的领域。在全部领域中,最弱的是程序语言和体系结构,这两个领域的研究工做,不到软件工程的1/3。操做系统方面的会议被归在其余骨干领域的范围内,若是单独抽出来,那么操做系统方面会议的论文占比数不到1%。
因而可知,中国在应用领域中的研究工做较强,而在基础领域(体系结构、程序语言、操做系统和计算理论等方面)的研究工做较弱。与此同时,基础领域的发展速度比较快,好比程序语言的发展速度超过9倍。
分析和讨论
根据此次获得的数据以及统计分析结果,能够初步得出下面几个结论。
近十年来中国计算机科学发展日新月异
2000年是论文数量变化的第一个转折点,当年中国在ACM会议上发表的论文总数仅18篇,2014年达到353篇,至关于2000年的近20倍。在CiteSeer影响因子前500名的会议中,2000年前中国每一年论文数在6篇如下,其中有3年是0篇。而2014年达到了279篇,增加46倍。2005~2006年是第二个转折点,此前,在影响因子前500名的会议中,中国每一年的ACM论文数在100篇如下,此后迅速上升到250~300篇之间,增加2.5~3倍,而且连续5年在这个范围内波动。从中国论文数占论文总数的比例来看,也具备三级跳模式。2000年以前,中国论文所占比例在0.5%如下,2006年上升到1.4%,以后很快上升到一个新的台阶。在2008年以后,每一年中国论文占论文总数的比例在5%左右波动,同2000年相比,增加了10倍。
与2006年写文章时的情形进行比较,几个主要的研究领域(体系结构、软件工程、程序语言、图形图像、新兴领域以及其余骨干领域)平均发展速度在4~11倍之间。
在这些领域中,2006年以后,中国论文累计数占ACM论文累计数之比已经达到2%~7%。这个数字看上去不大,可是同2006年统计的状况相比,发展是惊人的。2005年以前,只有图形图像和新兴领域的占比数分别达到2.29%和1.22%,其余几个领域的占比数都不到0.5%。尤为是程序语言领域,7篇论文仅占论文总数的0.19%,并且这7篇论文基本上都是国外单位、外国人或合做撰写的。从占比数看,软件工程增加最快,达到15倍的增加;其次是体系结构和程序语言,分别有10倍的增加。
中国计算机学会制定了《CCF推荐国际学术会议和期刊目录》(下面简称《目录》),各机构对论文数和质量也给予了充分重视,这些措施对中国论文的激增起到了重要的推进做用。
论文数量同国际水平之间依然有较大的差距
若是按2006年以来的累计数计算,中国ACM论文数仅占全球论文总数的4%。虽然整体而言中国论文数呈上升趋势,但近5年每一年占比数大致上在5%左右徘徊。2015年,中国人口占世界人口的比例超过18%,所以,每一年ACM论文数量应该达到如今的4倍以上,才能达到国际平均水平。若是同发达国家的人均论文数相比,差距更大。
此外在ACM的1392种会议中,中国仅参加了其中的539种,占38%。在历年举行的ACM会议中,有近3/4的会议中国没有参加。在2010~2014年这5年当中,中国有3次以上没有参加的会议总计207个,其中包括一批在计算机核心领域的一流国际会议。在67个有15年以上历史的会议中,2000~2014年,中国有10次以上没有参加过的会议总计有23个,超过1/3。
各学科发展不平衡
笔者认为,计算机的各个领域能够粗略地划分红基础领域和应用领域。体系结构、操做系统、数据库基础、理论计算机科学、程序语言以及集成电路电子设计自动化(Electronic Design Automation, EDA)工具均属于基础领域。软件工程、知识工程、大数据、互联网、图形学、集成电路设计和管理系统大致上属于应用领域。应用领域主要是指可以为最终用户直接提供服务的领域,基础领域主要是为应用领域提供服务的领域。
就中国在ACM会议上发表论文的状况来看,有两个特色值得注意。一个是基础领域的论文发表弱于应用领域,在体系结构、程序语言以及其余骨干(包括了操做系统和计算理论等基础性学科)会议中,中国论文占比平均在2%~3%。而软件工程、图像处理、新兴领域(包括互联网等方面的会议)这三个领域中,中国论文占比是6%~7%。集成电路行业介于二者之间,占比接近4%。集成电路行业包含了基础性的EDA行业以及开发最终产品的设计和验证行业。这也能够解释为何这方面的论文发表状况处于一个中间状态。见图9。
第二个特色是,在软件工程、图形图像和新兴领域这几个应用领域中,中国的论文分布很是不平衡。好比在软件工程领域,有一个会议占比数高达21%,可是15个会议中有6个会议,占比数在1.1%如下。在新兴领域中,如前面所述,不平衡状况更为突出。根据上述分析,咱们对相关问题进行以下讨论。
论文发表中的矛盾数据显示学科发展不平衡
文献根据国际论文数据库的资料获得的数据显示,中国计算机科学每一年发表的论文数自2008年后就一直超越美国,位居世界第一。2014年中国计算机论文数占全球论文数的20%。在CCF A类期刊(《目录》中的顶级期刊)上,中国近年发表的论文数占总数的26%。从这两个数字上看,中国不管是在论文的总量上,仍是在优秀论文的数量上都取得了很好的成绩。然而,本文的统计显示,2006年之后中国论文数仅占ACM会议论文总数的4%,主要会议上的占比是2%~7%。为何两种统计结果会有那么大的差别?
一个缘由多是咱们在作数据抽取时要从论文单位来断定是不是中国论文,因为信息不全,会少算一部分,但这之中的偏差不会严重影响到占比数的计算。另外一个可能的缘由是国内学者更倾向于在杂志上发表论文,这样作能够减小论文发表费用,有较多的反馈修改时间,同时避免了英语表达方面的不足。
笔者认为数据上的矛盾现象主要反映了发展的不平衡。一方面,大量论文集中在低端会议和杂志中,因此论文总量很大;而优秀论文又过分集中在一部分杂志和会议当中,不少一样重要的会议和杂志缺乏中国论文。所以,虽然CCF A类期刊上的中国论文所占比重很高,但ACM会议的中国论文所占比重却很低。
笔者认为,我国依然须要提升在国际会议和杂志上的论文发表量,可是重点要放在过去相对忽视的方向上面。
关于CCF《目录》以及论文导向的科研
最近《中国计算机学会通信》连续两期(2015年第七、8期)讨论了关于《目录》的问题。几位学者从各个角度作了有深度的分析[3~6],在确定了《目录》积极做用的同时,指出了《目录》的一些负面影响。对论文数量的过分重视,引发了学术界普遍的担心。中国科学院院士梅宏教授的文章从六个不一样角度分析了《目录》所带来的问题。当我在写这篇文章的时候,也强烈感到论文驱动的科研模式恐怕已经走过头了。
大量事实显示,科研成绩并不必定从论文数量上表现出来。好比,韩京洋等人的论文指出,图灵奖得到者中有三位从未发表过CCF A类论文。中国工程院院士李国杰教授引用了一个案例,英国帝国理工大学破格提拔郭毅教授时,他还没有在一流杂志上发表过文章。这说明,一流学者不能仅仅依靠量化考核。据我所知,法国有些著名学者在得到博士学位时也没有在一流会议、杂志上发表过文章,可是他们的博士学位论文被普遍引用。
毫无疑问,应该鼓励科研人员作有价值的研究工做,无论这些工做是否可以在短时间内发表到一流杂志或一流会议上。可是,要想破除论文导向体制的弊端,就须要用更好的机制来取代它。若是找不到更好的机制,咱们就很难避免论文导向的管理方法。这就同高考同样,咱们明知它有弊端,可是不得不继续使用。在计算机领域中,论文是评估工做成绩的一个重要方式,难点在于如何寻找建设性的方案去补充这一方式的不足。
值得注意的是,在同一个领域中,《目录》能够对科研评价起到很好的指导做用。可是,若是在不一样领域之间比较,它的参考价值就会下降。
把填补国内薄弱环节做为科研评估的一个重要因素
除了基于论文的科研评价模式以外,还有多种其余方式能够进行科研评估。好比,依靠权威人士评估、项目鉴定会、国家须要和市场效果的检验等等。本文的分析结果主要有两方面,一方面是论文数量大幅增加,另外一方面是各学科发展不平衡。这两个结果大致上都是在《目录》的推进下产生的。
在进行了论文分类以后,国内大量科研力量涌入了CCF A类期刊和会议中,以及国内基础较好或者论文发表相对容易的期刊和会议上。论文的成功发表又反过来使相关领域的学者获得更多的经费,从而可以发表更多的论文。由此形成部分领域的期刊和会议里中国论文激增,而大部分其余领域的中国论文依然稀少的状况。
由此形成的结果是学科发展严重不平衡。在本次统计中,有1/10左右的ACM会议,中国论文占比超过10%;而接近1/3的会议中,中国论文占比在1%如下;接近一半的会议,中国论文的占比在1%~5%之间。见图10。
学科发展不平衡是目前我国计算机科学面临的一个严重问题。
在集成电路的设计中,电路的速度取决于时间最长的那条路径,其余路径不管怎样优化都不能提升电路的总体速度。一样,从计算机科学发展的全局来看,须要各个学科均衡发展,不然,某些薄弱学科就可能影响总体效果的发挥。
要弥补这一缺陷,并不须要放弃《目录》。《目录》自己至关于咱们对计算机科学全局情况的一种认知,咱们应该完善和补充这种认知,而不是抛弃这种认知。
建议把弥补国内薄弱环节做为科研考核的一项重要因素,鼓励科研人员将论文投到国内论文发表较少的会议和杂志上。在科研评估时,把论文发表量同弥补国内薄弱环节两个因素结合考虑。
此外,基础性学科的研究难度较高,研发周期较长,影响长远,建议采用特殊的鼓励措施。不一样的学科能够采用不一样的论文发表量做为评估标准。
重视有影响的基础性研究项目
许多学者都明确指出,论文不是科研的最终目的。科研人员和科研管理机构都应该重视有长远影响的科研课题和科研产品,论文只是研发工做的副产品。重要的科研成果能够经过论文表现出来,也能够不经过论文表现出来,好比发明一个鼠标。
在基础性研究中,笔者认为对软件工具的开发须要给予特别的重视。
整个工业能够划分红重工业和轻工业。重工业是机器制造业,是支持轻工业发展的基础性工业。建国之后的几十年,中国重点发展重工业,虽然那时人民的生活水平比较低,可是为近几十年的经济起飞奠基了基础。
软件工具是用于软件开发和硬件设计的软件,至关于计算机行业的“重工业”。长期以来,我国发展比较快的是应用性软件、嵌入式系统和集成电路芯片。这些领域至关于计算机行业的“轻工业”。可以担当起计算机“重工业”的还有CPU、操做系统、编译器和理论计算机科学等领域,这些领域相对而言获得了必定的重视。可是在软件工具方面,除了管理系统软件的开发工具以外,其余方面的受重视程度还至关不够。
最难开发的软件工具能够分红两大类,一类是须要雄厚理论基础的软件工具,另外一类是跨领域的软件工具。前一类的例子有各类自动的和半自动的定理证实工具以及领域专用语言等等。后一类的例子有用于集成电路设计的几十种EDA工具,用于机械设计、发动机设计、新医药研制的各类软件工具等等。这些工具的开发者既要具有高水平的软件开发能力,同时又必须成为相关行业的专家。为此,须要十几年甚至几十年的积累。这些工具也凝聚了各个专业领域的核心技术。
例如,Isabelle定理证实器在1989年以前就开始研发,至今已超过25年。2009年,澳大利亚ICTRC用这个定理证实器证实了一个嵌入式操做系统核心seL4的正确性,而且挖掘出C代码中150个错误。同步语言Esterel自1983年开始研发,至今32年,目前该语言发展成为一个商业化的嵌入式系统建模工具Scade,全套软件售价百万美圆以上。
在软件工具以及其余一些基础性研发工做方面,虽然中国已经有了一些具备影响力的开发工做,但同国外还存在巨大差距。这种差距很难使用相似论文数量这种简单方式进行衡量,也难以使用相似《目录》的方式去激励。
计算机发展的机遇
一般认为,1946年完成的ENIAC是第一台计算机,可是第一台可以用存储器保存并运行程序的计算机是1950年完成的UNIVAC 1101或
ERA 1101[10]。1952年,华罗庚呼吁国内开展计算机研究;1960年,夏培肃先生带领的团队研制出中国第一台通用计算机。从当时的状况看,中国计算机同国外的差距彷佛只有10年左右。自那时以来,中国一直在努力缩短同国外的差距。半个世纪过去了,中国计算机的整体水平同国外的差距至少还有10年以上。
为何这个差距始终没法缩短呢?一个缘由是,计算机的发展不是单一学科的问题,它同一个国家的科研和工业的总体水平密切相关。从理论基础、软硬件技术、计算机应用,一直到材料科学和机械工业,方方面面都影响着计算机的发展。中国计算机事业还有不少薄弱环节:绝大部分有影响力的计算机理论模型(除了区段演算等少数研究之外)都不是国内提出的,有影响力的程序语言和定理证实工具也不是国内发明的,大部分体系结构创新并不是来自中国,价值较高的系统软件和工具软件基本上都是国外开发的,中国还远未掌握芯片的制造技术等。要解决这些问题,既须要让计算机的各个分支都可以全面发展起来,也要让计算机专业同其余学科有更紧密的交叉互动。
另外一方面,咱们还须要反思一下“追赶”导向的科研模式。“追赶”一词同模仿紧密相关。在不少行业中(也包括计算机自身的一些领域),人们能够作到先模仿后超越,可是对于计算机核心技术,这一策略经常是失败的。计算机的发展历史代表,成功的策略每每是先创新后超越。微软并无模仿IBM操做系统,英特尔也没有模仿IBM计算机,可是前者都超越了后者。在计算机领域中,关键是要让有重大前景的小技术得到发展机会。这种机会可能像早期英特尔、微软那样,找到一个可以让他们发展壮大的市场;也可能像谷歌、也可能像阿里巴巴,找到一个有眼光的投资人。
“追赶”是一种向后看的思惟模式,它所看到的是过去的成功;“创新”是一种向前看的思惟模式,它看到的是将来有前景的技术。过去是很清晰的,将来是不清晰的。在计算机历史上不断地出现各类机遇,大部分人都没法抓住这些机遇,由于看不清将来。IBM若是能看清我的计算机的将来,毫不会把机会留给英特尔和微软。
英特尔和微软的时代已通过去,可是计算机的发展历程中还会不断地涌现新的机遇。怎样识别和抓住机遇,是咱们须要认真对待的问题。■
致谢:
感谢《中国计算机学会通信》专栏编委包云岗的热情邀请和鼓励,本文最终写成。感谢吕延田先生为本文的数据采集提供了重要的帮助。感谢北京京航计算通信研究所领导和同事对我工做的支持。感谢人社部组织的海南专家行活动,经过这些专家,了解到各行业对工具性软件的迫切需求。尤为感谢同屈凌波教授和李雪琳老师的有益讨论。感谢李国杰院士对我研究工做的重视。
脚注:
1 International Conference on Functional Programming, 函数编程会议。
2 New Security Paradigms Workshop。
3 International Conference on Pattern Recognition。
4 Principles of Programming Languages,程序语言理论会议。
5 International Conference on Architectural Support for Programming Languages and Operating Systems,对编程语言和操做系统得体系结构支持国际会议。
6 Conference on Principles of DB Systems,数据库系统理论会议。
7 ACM SIGPLAN Symposium on Partial Evaluation and Semantics Based Programming Manipulation。
8 ACM SIGACCESS Conference on Computers and Accessibility。
9 Microarchitecture。
10 ACM Symposium on Parallelism in Algorithms and Architectures。
11 ACM Symposium on Principles of Distributed Computing。
12 ACM Symposium on Theory of Computing。
13 the International Conference on Hardware-Software Co-design and System Synthesis,国际软硬件协同设计综合会议
14 International Conference on Compilers, Architectures, and Synthesis for Embedded Systems。
15 Super Computing,高性能计算年会。
16 ACM International Conference on Information and Knowledge Management。
17 International Conference on Research on Development in Information Retrieval。
18 Knowledge Discovery and Data Mining。
19 Selected Areas in Cryptography。
20 Design, Automation & Test in Europe Conference。
21 Design Automation Conference。
22 International Conference on Computer-Aided Design。
23 International Symposium on Low Power Electronics and Design。
24 ACM/SIGDA International Symposium on Field-Programmable Gate Arrays。
25 International Symposium on Physical Design。
26 Great Lakes Symposium on VLSI Systems。
27 International Symposium on Computer Architecture。
28 Parallel Architectures and Compilation Techniques。
29 International Conference on Supercomputing。
30 Aspect Oriented Software Development。
31 Designing Interactive Systems。
32 International Symposium on Software Testing and Analysis。
33 International Conference on Very Large Data Bases。
34 ACM Conference on Human Factors in Computing Systems。
35 ACM SIGMOD Conference on Management of Data,数据管理国际会议。
36 ACM SIGGRAPH Annual Conference。
37 Virtual Reality Software & Technology,虚拟现实软件与技术年会。
38 International Conference on Languages, Compilers, Tools and Theory for Embedded Systems, 嵌入式系统语言和编译。
39 Conference on Object-Oriented Programming Systems, Languages, and Applications。
40 Conference on Programming Language Design and Implementation,程序语言设计与实现会议。
41 Code Generation and Optimization。
42 Autonomous Agents and Multi-Agent Systems。
43 ACM Symposium on Access Control Models and Technologies。
44 International World Wide Web Conferences。
45ACM Symposium on Access Control Models and Technologies。
46ACM Symposium on Operating Systems Principles。
47ACM-SIAM Symposium on Discrete Algorithms。
48ACM Conference on Computer and Communications Security。
做者:
陈 钢
CCF会员。北京京航计算通信研究所国家千人计划专家。主要研究方向为高阶定理证实器、程序语言、类型理论、静态分析、硬件形式化验证、PLC程序测试以及函数式硬件语言等。
参考文献:
陈钢. 从ACM会议论文数量看差距.中国计算机学会通信, 2006,2(5).
黄铁军.我国计算机学科国际期刊论文情况. 中国计算机学会通信, 2015, 11(8).
梅宏.中国计算机学会发布《国际学术会议和期刊目录》得失谈. 中国计算机学会通信, 2015,11(5).
张晓东.发表论文只是研究的一种形式而不是目的. 中国计算机学会通信, 2015,11(7).
包云岗. CCF《国际学术会议和期刊目录》得大于失.中国计算机学会通信, 2015, 11(8).
陈盈. 为CCF《国际学术会议和期刊目录》点赞, 中国计算机学会通信, 2015, 11(8).
李国杰. 科技评价漫谈, 中国计算机学会通信. 2014, 10(11).
韩京洋, 陆嘉恒, 杜小勇. 图灵奖得主CCF论文发表状况分析.中国计算机学会通信, 2015,11(4): 48~52.
Klein, Gerwin et al. seL4: Formal verification of an OS kernel, 22nd ACM Symposium on Operating System Principles, Big Sky, Montana, US.
[10] http://www.computerhope.com/issues/ch000984.htm.