科研之路（2）：分析学习别人的科研历程

时间 2020-06-24

标签科研之路分析学习别人历程繁體版

原文原文链接

2018-06-12
html

万事开头难，面对科研，找不到入手点，最后看似忙忙碌碌，实则无所事事，我想这是一件很痛苦的事情吧。git

师兄说要先有一篇有主题有结构有内容的论文，按部就班最终结果可能会更好些，要否则高不成低不就本身痛苦。github

总归是要痛苦一阵子的，因此我想接下来分析记录一下南开大学程明明老师关于科研的心路历程，主要目的是但愿对本身有所启发，这是他的原文连接：http://mmcheng.net/zh/paperreading/！！！既然尚不明朗，研究课题又和程老师团队目前的工做相吻合，就先顺着他们的路，追踪学习下去吧（关于这一点，我已经很庆幸了，毕竟不是全部的人都能遇到，相遇已实属不易），慢慢走出一条本身的路。web

很是感谢程老师的分享精神，一篇分享，可能就影响甚至指引了像我同样成千上万的后来者，感恩分享！算法

如下是程老师所说的他在科研中所遇到的“经验教训”^_^数据库

一如程老师所说，他所遇到的困惑：如何阅读文献，如何寻找科研题目？编程

1. 机遇与挑战api

机遇与挑战老是并存的。网络

就阅读论文和寻找新的题目而言，几乎在任什么时候刻，若是咱们去阅读以前的论文，都会以为几乎每一个学科都发展到必定程度（有无数的重要工做以致于想通读一遍都很困难），容易作的都被人作光了，剩下了一堆难啃的硬骨头。可是当咱们从某个时间点日后看，又老是有太多的工做让人以为异常兴奋，振奋之余又陷入了那个问题，貌似仅剩的容易工做又被人作了。只恨本身比别人晚出生几年。要是真的可以早生几年，咱们就可以作出哪些工做吗？我想若是抱着这种心态，这种假设大概只会一直回退到远古时期，回退到那个你们都在为食物而拼命的年代。（这种正确的心态很重要）app

与其抱怨已有工做浩如烟海，无从入手，感叹咱们怎么会不幸的出生在一个“科技发展的后喷发时代” ，不如认真的换个更加客观的角度从新思考问题。假如咱们是一个计算机处理器设计行业的新从业者，当咱们刚进入这个行业的顶级公司，看到无数的已有工做和成绩，咱们极可能也会发出相似上述状况的感慨。可是，身为一个外行，和无数的外行同样，我很是有信心，计算机的处理能力在将来不少不少年还会继续快速增加，比这个世界上几乎全部其余行业都要快的速度继续增加。全部的局外人都明白其中所蕴含的机遇。对于咱们所从事的领域，不少时候咱们的迷茫，咱们的“不识庐山真面目”，都只源于咱们“身在庐山中”。

在从事这些领域的过程当中，我（“我”均以程明明老师为第一人称）也曾经经历了迷茫、失望、探索、发现、振奋的各个阶段。虽然迷茫和失望在时间跨度上占了我短短几年科研经历的明显多数，但如今更多的是信心和对将来的憧憬。当咱们摆脱以前的悲观情绪以后，一个现实的问题是，如何寻找这些机遇，如何从海量的文献中找出适合咱们的科研题目？关于这一点，我想从本身比较熟悉的几个领域出发，用具体的实例来总结个人一些经验和教训。

下面主要经过时间顺序，分析一些领域的一些表明性工做是如何一个接一个涌现出来的，是什么基础启发了这些工做？这些想法是如何转化为实际的成果？

不妨假设咱们也是曾经的“当事人”。若是可以顺着这几条脉络走下去，在每一个论文出来以后，想想若是我是当时从事这些工做的人，我会从以前的工做中获得什么启发 ？我会如何开展下一步研究？

对于低年级的新手，开始的时候这种锻炼会很是辛苦。最初的“启发”极可能是“又一个软柿子被人捏过了”，“貌似能作的都已经被作了”，“貌似只剩难啃的硬骨头了”，“这家伙从事科研的时间点怎么这么幸运”。咱们能够想一想若是是本身，站在当时那个位置，会作什么后续工做。

当确实充分的思考完一个工做以后，咱们能够看一看下一个同领域的重要工做。若是你发现本身不少时候能够“预测”这些发展了，那么很是恭喜你，这篇小总结可能对你没太大用处了。若是咱们又一次陷入那个以为只恨又一个容易作的工做被别人作掉了的怪圈，那么仍是再认真锻炼，仔细琢磨这些新的工做是怎么一个接一个在类似的topic上层出不穷的。

注：如下主要分析一些引用数特别高的论文。每个引用一般意味着有人受到这篇论文的启发，作了一些新的工做，而且发表了相关的论文。在无数的论文中，阅读这种论文一般“性价比”更高一些。

2. 系列工做分析之Saliency Detection

2.1 [98PAMI]: A model of saliency-based visual attention for rapid scene analysis（一种基于显著性视觉注意力的快速场景分析模型） (Matlab, 9000+ citations)

这篇论文虽然只是个short paper，可是在这个领域有着不可磨灭的绝对重要性。

其最大的贡献在于将Visual attention的问题用计算模型表达出来，并展现出来这个问题能够在必定程度上获得有意义的结果。其中提到的Center-Surround difference在后续的不少工做中都被以不一样的形式表现出来。除了生成saliency map （后续的不少方法只生成saliency map），这篇文章也探讨了注视点的转移机制。

总之，说这篇论文是saliency Detection computation的开山之做也不为过，此文对后续工做有着深入的影响。体现了最牛的一种创新境界“提出新问题”。

建议在继续阅读别的论文以前，先仔细读一下这篇只有区区6页的短文，想一想还有什么可作的吗？我第一次读完这篇论文以后，第一感受是：i) 这篇论文对该考虑的问题都考虑到了，应该没有太多能够接着作的了, ii) 这么简单的东西怎么就没轮到我去发现，那个时候的人太幸福了，这么简单的想法也能够发IEEE TPAMI。固然，这些初始的想法是小菜鸟最多见的想法。

再继续往下读以前，不妨使劲去想到底有多少种可能能够扩展。我想，在没有阅读后续论文的条件下，常人能想到的扩展不会超过两三种，可谓少的可怜。可是，要是你点击一下Google Scholar的连接，那5000+的citation中，有一半以上都是接着作saliency detection的！也就是说有2000+种可能能够接着作，而且成功的发表了论文，其中不乏优秀论文。

再日后读这个系列中的别的论文，你会发现，idea越作越多，而非越作越少。等读到最后一个的时候，你一般会发现本身轻易就能想出几十种可能发表新论文的想法。

2.2 [07CVPR]: Saliency detection: A spectral residual approach, (Matlab, 2600+ citations)

这篇论文做者一开始就说得很明白，是与特征、类别或者其余形式的先验知识无关的，他用到的工具是只要学过信号处理的人都会学到的傅里叶变换，大概说来是基于频谱的log函数，提取图像在频率域的残余，而后提出一种图像显著性检测的方法。

在1998年PAMI的论文发表以后到这篇论文以前（相隔9年的时间）其实有不少作saliency detection的文章。这里不一一介绍了，由于太多了，以致于不少我本身也没看。我直接跳到这篇颇有“性价比”的论文。之因此这篇论文影响力很大，一个重要的缘由是简单，出奇的简单！这篇论文一共5行matlab代码，比通常论文abstract中的字符还少，做者直接贴到论文中了。5行代码的方法，不用花太多时间就能看完。

特别简单的方法一般意味着有无数种方案能够改进。最直接最容易想到的创新莫过于“组合创新”。有兴趣看这些改进的读者能够经过Google Scholar查看引用这个论文的其它论文。仍是继续上面的风格，我每次都跳到下一个颇有“性价比”的工做（也就是简单可扩展的工做）。

2.3 [07CVPR]: Learning to detect a salient object, (Dataset, 1800+ citations)

这篇论文最大的贡献就是将saliency detection从以fixation prediction（固定预测）占绝对统治地位的时代，引导到了以salient object detection为主的时代，对该领域贡献很是大。此外，这篇文章贡献了一个含有2万个图片的数据集MSRA数据集，并给出了Bounding Box级的标注。这篇文章的主要不足之处是没开源（固然那个年代大部分文章都不开源）致使重现比较麻烦。此外，Bounding Box级别的标注精度不能知足不少应用需求。

2.4 [09CVPR]: Frequency-tuned salient region detection, (C++, 2400+ citations)

一篇2009年的工做，能在短期内，受到如此关注，实数罕见。该文一样具备几乎全部高引用论文的重要特征：简单！比上面的CVPR 2007的那个还简单。你能够写一个2行的matlab代码就搞定。代码字符数能够比不少论文的题目字符数还少。

这种论文容易扩展的特色是毋庸置疑的。若是能发表在高水平的会议期刊上，这种论文会有很大的影响力。问题在于，若是是咱们当年想到了这个方法，怎么sell这个方法，让他可以被你们所承认。看了方法的人都会感叹，这样也行？！！

这篇论文之因此被你们承认，特别是被CVPR的review承认，很大缘由在于做者看到了一个机遇“The true usefulness of a saliency map is determined by the application”。以前的不少saliency detection方法都在follow 98年pami那篇，试图去预测注视点。

Saliency的机制很重要，可是不少的应用须要知道整个saliency物体的区域（例如图像中一匹马对应的全部像素），而不是这个物体上的若干个点（例如马的眼睛）。这篇文章以后，不少工做的评价标准就从传统的对注视点预测的评价，转移到对物体区域二值图的预测上了。从某种意义上讲，这篇文章对Saliency detection的问题作了从新的定义，让问题定义更加回归实际应用。

这篇文章的方法之因此能在一个当时最大的数据集（1000个image的binary segmentation）上作到比其它方法好的结果，很大的缘由在于，别的方法不是针对这种评价体系设计的。在新的评价体系下，用图像中每一个像素颜色值，和图像的平均颜色值，在三维彩色空间中的距离，做为saliency value，就能获得比以前方法“更好”的结果。这个工做的最大特色是重新的角度提出问题，怎么formulate都是次要的，不用太纠结于此（后来咱们也利用关键词搜索获得了不少图像，并标注了2个更大数量级的数据库：https://mmcheng.net/zh/code-data/）。后来无数种方法都在他们的数据库上取得了更好的结果。

2.5 [10CVPR]: Context-aware saliency detection, (Matlab, 1600+ citations)

虽然“组合创新”有时候容易被认为是minor improvement，可是若是论文写得好，实验作得充分，也能够作出具备影响力的工做。并且貌似大部分论文都是组合创新。这篇CVPR 2010的工做就是Saliency detection中“组合创新”的一个典型。听到组合创新这个词，你们或许就能对这个paper的总体结构有个猜想。其实就是把face detetion， pixel level saliency map，region level saliency map简单组合起来。

2.6 [11CVPR](15PAMI): Global Contrast based Salient Region Detection, (C++, 2100+ citations)

能够说1998年的PAMI和2007年的CVPR是我2007刚开始接触科研时就看过的paper。当时看了只有佩服和震撼，感受能作的都作了，貌似没我什么机会。上面提到，我是在图形学组读博的，主要关注的是CV方法的应用。2009年春季学期的时候，咱们组加上外面访问的学生，一共有10个project，后来这些project中了一篇ACM TOG和6篇Pacific Graphics（全部论文收录图形学中影响因子第三高的期刊CGF，第一是ACM TOG，第二是IEEE TVCG）。这些应用经验，让我内心比较清楚那种saliency map是我更须要的。可是根深蒂固的偏见（看了以前fixation point prediction系列paper以后以为saliency map就该长的像那些paper中那样），让我即便在拥有如此多应用经验的状况下，依然没能及时意识到，要想在实际应用中发挥更大的做用，这个问题的定义方法和evaluate方法应该改！（这段话挺有启发的，换个角度看问题，打破局限很重要！）

2010年6月份的时候，一个偶然的机会，我看到了CVPR 2009的论文。如今还记得是某一天中午十一点多的时候看到的，论文粗看了一下，就到了吃饭点，和同窗去食堂吃饭了。整个吃饭过程各类不淡定，内心那叫一个激动呀。由于我知道更多的saliency detection应用确实须要这样的问题定义和评价标准。而做者在论文中用到的方法，其实只是一个适用这种应用需求的最最简单的方法。这种简单的方法太容易被超越了！激动事后，赶忙吃完午餐，回到实验室验证我吃饭时内心想到的几个可能的改进。那天下午，我花了不到1个小时的时间，就获得了比CVPR 2009论文中方法明显好的结果（就是我CVPR11年论文中的HC方法）。不久以后，获得了一些老师和同窗的反馈，进而提出了论文中的RC方法，和SaliencyCut方法（值得注意的是，虽然不少后续方法号称获得了更好的Saliency map，可是我一直没看到更好的根据这些Saliency map获得的segmentation结果，可能跟咱们坚持不在Journal版本录用以前放出SaliencyCut部分代码有关系吧）。

2.7 [12CVPR]: Saliency Filters: Contrast Based Filtering for Salient Region Detection, (C++, 800+ citations)

这篇文章从一个很是新颖的角度去看待显著性检测的问题，把显著性检测问题，特别是全局对比度计算问题，转换为一个高维的高斯滤波问题。进而使用了一个新出现的“神器”进行求解。这个“神器”就是Eurographics 2010的Best paper runner up “Fast High-Dimensional Filtering Using the Permutohedral Lattice”。

之因此称之为神器，是由于这个技术成就了一批具备很高影响力的论文。将这种快速高斯滤波应用到Conditional Random Field (CRF)领域，一会儿就让这个领域内两大主流方法之一的mean mield解法打了一个翻身仗。

以前你们提到CRF, 就很容易提到2类解法，graph cut和mean field，而后就来一句因为计算效率问题，咱们选择基于graph cut的解法…。有了上述神器，Philipp Krähenbühl等人先是展现了Mean field的快速解法（在全连通CRF状况下把之前须要36个小时计算还没最终收敛的算法，直接0.2秒解掉）。

这个神器在crf里面的应用，也一举摘得了NIPS 2011的best paper award。小试牛刀以后，Philipp Krähenbühl等人又在CVPR 2012刷了一把saliency，并在ECCV 2012刷了一把optical flow。这个神器。就连如今语义分割类Deep Learning方法中的crf layer，也采用这个神器来加速（例如著名的DeepLab：http://liangchiehchen.com/projects/DeepLab.html）。我本身也在Pacific Graphics 2015上，利用这个神器作了一个DenseCut：https://mmcheng.net/zh/densecut/的工做。

2.8 [13ICCV]: Efficient Salient Region Detection with Soft Image Abstraction (C++, 300+ citations)

受到Saliency Filter的启发，我结合本身CVPR 11年Global contrast那篇论文中用到的Color quantization和Gaussion Mixture Model的已有工做完成了这个工做。这个工做如今令我最印象深入的是一个字“快”。一方面是算法快，cpu版本就能每秒处理90个image。另外一方面是编程快，deadline前2周注意到saliency filter这篇文章后想到的，当天下午就写完程序（在本身已有工做基础上新的程序很短）并在当天晚上完成了paper里面的所有实验。

2.9 [17IJCV] (13CVPR): Salient object detection: A discriminative regional feature integration approach, (C++, project, 490+ citations)

这个工做差很少能够认为是显著性物体检测领域Deep learning时代到来前的最后一个高潮。在此以前的几年里，包括上述的几个工做，虽然每一年CVPR等顶会上都会出几个工做刷刷performance，可是绝大部分工做有点过于“拍脑壳”想出来的，让这个领域里的主流工做背离了机器学习的大背景。

如何将影响salient object detection的上述常见因素，以一种principled的方法利用起来，特别是利用机器学习领域的正规方式对不一样特征进行集成，就是这个paper的核心idea。具体实现的话，就是作了不少feature，而后用Random Forest用principled的方法学习如何组合这些feature。咱们在下面立刻要介绍的2015年IEEE TIP论文中对当时主流的方法作了一个benchmark，DRFI在各个数据集中都排名第一。

2.10 [15TIP]: Salient object detection: A benchmark, (C++ & Matlab, 650+ citations)

在2014-2015年这段时间，咱们对显著性物体检测这个领域的研究作了一个总结和比较性评测，对方法的演化特别是全部方法在一个统一的评价体系下的综合表现进行了对比性实验，讨论了各类方法的优缺点，并探讨了这个领域可能的发展方向等。因为这个时间点恰好处在显著性物体检测领域从传统方法过渡到深度学习方法的交接点，所以这篇文章中对几乎全部主流的非深度学习方法作了全面的总结。一些在这个数据集上表现较好的方法，如：DRFI，DSR，QCUT，RC等方法，就逐渐沉淀为非深度学习的显著性物体检测方法的表明。

2.11 [15IJCV]: Supercnn: A superpixelwise convolutional neural network for salient object detection (code, 40+ citations)

这是深度学习类的显著性物体检测的早期表明性工做。这块的发展脉络和第三节Edge Detection系列的发展脉络极其类似。说明到必定时候，英雄所见略同。因为我先写Edge detection那部分，再写的基于深度学习的显著性物体检测部分，这部分就不打算像Edge detection那块同样把发展写的那么细了。感兴趣的读者能够参考咱们CVPR 2017年DSS论文中的相关工做进行梳理，若是在梳理过程当中和这篇文章第3节中的Edge detection系列对比着看，你回发现Idea层面惊人的类似之处。同edge detection领域刚过渡到深度学习系列方法初期类似，早期的深度学习也是从super-pixel层面提取特征并直接判断目标（saliency/edge）值的。开始使用新的杀手级工具时，每每单刀直入就能够取得比较好的进步了。

2.12 [15CVPR] Saliency detection by multi-context deep learning(code, 200+ citations)

这篇文章除了有super-pixel level的local context以外，也加入CNN最擅长的对Global context的建模。除了直接应用CNN提取super-pixel特征并预测显著性值，CNN自身获取全局信息的优点也获得必定程度的发挥。

2.14 [17CVPR] Deeply Supervised Salient Object Detection with Short Connections (code, 19 citations)

在作这个工做以前，咱们注意到了edge detection, semantic segmentation, salient object detection几个领域的一些共性和最新的趋势：

1) 从局部分析逐渐过渡到End-to-End的全局(Holisticly)分析；

2) 相似于15年Marr奖Runner up论文（Holistically-Nested Edge Detection, 简称HED）中的skip layer结构对高质量的输出颇有帮助；

3) 显式的让高层语义信息去指导和帮助低层语义信息更好的定位显著性物体位置的同时精确的肯定其范围颇有帮助。

所以，咱们在HED的基础上，增长了一种高层信息指导低层信息的Skip Layer结构，从而构建了一种简单，有效，快速的End-to-End的显著性物体检测网络结构。

方法很简单，你们能够经过咱们的论文和代码进一步了解细节。这里跟你们分享一些论文里没有的东西：

咱们对于显著性物体检测技术的研究已经持续不少年了。除了常见科研选题的技巧（如利用类似领域的知识、提出新的问题、利用新的工具等）以外，支持咱们一路走来还有一个更重要的动力。任何一个研究领域蓬勃发展，都不是由于要发表paper，也不是由于研究生要毕业，更不是由于科研人员想自嗨。这种蓬勃发展须要一股强大的潜在动力：Killer App。

在作显著性物体检测算法的过程当中，这些年我也一直持续在作Salient object detection的下游应用。正是对这些下游应用比通常视觉领域里作salient object detection更精准的把握，才让咱们更容易清楚地把握一个好的salient object detection算法最缺什么元素。建议各位关注显著性物体检测算法的朋友，也关注一下相关的应用，必定可以受益很多。

图1：DSS方法(CVPR17)用于智能拍照，并在华为Mate 10慕尼黑发布会和荣耀V10发布会上重点介绍。背后的一些故事和经历在一个报道采访http://news.nankai.edu.cn/nkyw/system/2017/12/24/000362595.shtml中我给予了详细介绍。图2: 利用显著性物体检测技术自动为深度学习算法生成训练数据。17PAMI: STC https://weiyc.github.io/assets/projects/stc.html图3: 用显著性物体检测技术分析图像中的结构信息，并用于图像检索、合成、和互联网图像分析。这个工做的详情请参考Sketch2Photo项目https://mmcheng.net/zh/sketch2photo/。图4: 内容敏感的图像缩放也是一个研究很普遍的领域。高质量的结果须要对显著性物体的鲁棒定位。详见：ImageResizing项目https://mmcheng.net/zh/imageresizing/。

2.15 [14arXiv]: Salient Object Detection: A survey. (pdf, 150+ citations)

这个工做初版放在arXiv上以后，咱们进行了持续的更新。最新一版也包含了对上述工做的更详细的总结。

3. 系列工做分析之Edge Detection

边缘检测在计算机视觉的不少领域中都有很是重要的应用。图像边缘检测可以大幅减小数据量，在保留重要结构属性的同时，剔除弱相关信息。

在深度学习火起来以前，传统的Sobel、Prewitt、Laplacian等滤波器，Canny检测器具备普遍的应用，这些检测器只考虑到图像局部的急剧变化，特别是颜色、亮度等的急剧变化，经过这些特征来找边缘。可是这些特征很难模拟较为复杂的场景，例如在伯克利的分割数据集（Berkeley Segmentation Dataset, BSD500），仅经过亮度、颜色变化并不足以把边缘检测作好。

后来，开始有人使用数据驱动的方法来学习怎样联合颜色、亮度、梯度这些特征来作边缘检测，而且产生了一些流行的方法，好比Pb, gPb, Sketch Tokens, Structured Edge。

可是在不少场景下，仅凭颜色、亮度、梯度等low-level特征很难作到鲁棒的检测，咱们须要用一些high-level 好比 object-level的信息才可以把中间的细节纹理去掉，使其更加符合人的认知过程（举个形象的例子，就好像画家在画这个物体的时候，更倾向于只画外面这些轮廓，而把里面的细节给忽略掉）。

传统的基于手工设计特征的方法，最好的结果只有0.7（用正确率和召回率的调和均值F-Measure来度量，BSD500数据集上多我的工标注者之间的F-Measure=0.8），这很大程度上是由于传统的人工设计的特征并无包含高层的物体级别信息，致使有不少的误检。于是研究者们尝试用卷积神经网络CNN，探索是否能够经过内嵌不少高层的、多尺度的信息来解决这一问题。近几年，有不少基于CNN的方法的工做。这里从2014 ACCV N4-Fields开始提及。

3.1 [14ACCV]: N4-Fields: Neural network nearest neighbor fields for image transforms (80+ citations)

如何从一张图片里面找边缘？顺着传统方法局部邻域计算的思路。咱们会想到计算局部梯度的大小、纹理变化等这些直观的方法。其实N4-Fields这个方法也很直观，图像有不少的patch，用卷积神经网络（CNN）算出每一个patch的特征，而后在字典里面进行检索，查找与其类似的边缘，把这些类似的边缘信息集成起来，就成了最终的结果，能够看到，因为特征更增强大了，结果有了较好的提高。

3.2 [15CVPR]: DeepEdge: A multi-scale bifurcated deep network for top-down contour detection (100+ citations)

发表在CVPR 2015的DeepEdge对上述工做进行了扩展，首先使用Canny edge获得候选轮廓点，而后对这些点创建不一样尺度的patch，将这些 patch 输入两路的CNN，一路用做分类，一路用做回归。最后获得每一个候选轮廓点的几率。

3.3 [15CVPR]: Deepcontour: A deep convolutional feature learned by positive-sharing loss for contour detection (代码, 100+ citations)

这是CVPR2015中的另外一个工做，该工做仍是基于patch的。首先在图像中寻找patch，而后对patch 作多类形状分类，来判断这个边缘是属于哪一类的边缘，最后把不一样类别的边缘融合起来获得最终的结果。这篇论文算是对2014年的N4-Fields的一个扩展，对training数据中patch的edge类型进行聚类，而后设计了更强大的网络判断某个patch的edge属于哪个类别。

3.4 [15ICCV]: High-for-low and low-for-high: Efficient boundary detection from deep object features and its applications to high-level vision (代码, 40+ citations)

ICCV 2015的工做High-for-Low (HFL)也用CNN对可能的候选轮廓点进行判断。做者使用了通过高层语义信息训练获得的VGG Net，在必定程度上用到了高层语义信息；使用更精确的Structured Edge来生成候选轮廓点；所以取得了不错的结果。此外，和DeepEdge须要对每一个候选轮廓点对应的patch都作CNN前馈不一样，HFL只需对整幅图像作一次CNN前馈，这大大减少了计算量，处理一张图片所需的时间从1000秒减少到0.83秒。从这个意义上来讲，DeepEdge的想法和R-CNN相似，而HFL的想法和Fast R-CNN相似，我想做者也是受了R-CNN和Fast R-CNN的启发分别作出了这两篇论文，这说明咱们平时作研究的idea不只能够从正在作的task上去找，也能够从其余的task上去想。

这些工做虽然取得了一些进展，可是离人类的表现还有很大的差距。这些方法的缺点在于大部分方法都是基于局部策略所作的结果，每次只看一个区域，即只针对一个patch，并无很充分的利用高层级的信息。HFL使用了全局的卷积特征，因此结果比以前有了较大的提升；可是它依赖Structured Edge产生的候选轮廓点，不能实现总体的end-to-end的训练。

3.5 [15ICCV]: Holistically-nested edge detection (代码, 300+ citations)

HED 是屠卓文教授课题组在ICCV 2015 Marr Price提名的工做。该工做最大的亮点在于，一改以前边缘检测方法基于局部策略的方式，而是采用全局的图像到图像的处理方式。即再也不针对一个个patch进行操做，而是对整幅图像进行操做，为高层级信息的获取提供了便利。与此同时，该方法使用了multi-scale 和multi-level, 经过groundtruth的映射在卷积层侧边插入一个side output layer，在side output layer上进行deep supervision，将最终的结果和不一样的层链接起来。加上deep supervision后，该方法能够在不一样尺度获得对应抽象程度的边缘。该方法在伯克利分割Benchmark上的结果较以前有了很大的提高。HED在论文中详细对比了语义分割中著名的FCN算法，我推测做者是从FCN开始尝试的，将不一样尺度上的side output进行融合，最后又加上了deep supervision，使得结果有了较大的提高。

3.6 [17CVPR]: Richer Convolutional Features for Edge Detection (代码)

RCF是咱们课题组CVPR2017的工做。其实想法很简单，一句话就能归纳，因为不一样卷积层之间的信息是能够互补的，传统方法的问题在于信息利用不充分，至关于只使用了Pooling前最后一个卷积层的信息，若是咱们使用全部卷积层的信息是否是可以更好的利用卷积特征，进而获得更好的结果？使用全部卷积层的信息，而不是池化以前的最后一层，这样一个很是简单的改变，使得检测结果有了很大的改善。这种方法也有望迁移到其余领域。实验结果代表，虽然卷积神经网络自带多尺度特征，但显式地使用多尺度融合对边缘检测结果的提高依然有效。该方法操做简单，且不明显增长计算时间，虽然代码量少，但在BSDS500数据集上的结果甚至超过人类标注者的平均表现水平，并且可以达到实时检测速度(30fps)。RCF是第一个实时的而且精度超过BSD500数据集上人类标注水平的边缘检测算法。

图5: 各类边缘检测算法在BSDS500数据集上的评测结果 (画图所用的代码、数据和相关说明已经公开在这里https://github.com/yun-liu/plot-edge-pr-curves)

4. 系列工做分析之Content Aware Image Resizing

07SIGGRAPH: Seam carving for content-aware image resizing, (800+ citations)

08SIGGRAPH: Improved seam carving for video retargeting, (400+ citations)

08SIGGRAPH Asia: Optimized scale-and-stretch for image resizing, (300+ citations)

08PG: Shrinkability Maps for Content‐Aware Video Resizing (70+ citations)

09PG: A Shape‐Preserving Approach to Image Resizing (C++ code, 90+ citations)

13SIGGRAPH: Rectangling Panoramic Images via Warping

13ICCV: Content-Aware Rotation

5. 系列工做分析之Object Level Image Editing

07SIGGRAPH: Photo Clip Art, (150+ citations)

09SIGGRAPH Asia: Sketch2Photo: internet image montage, (180+ citations)

12SIGGRAPH: Interactive images: cuboid proxies for smart image manipulation, (20+ citations)

14TOG: ImageSpirit: Verbal Guided Image Parsing, (Project page)

6. 系列工做分析之Objectness proposals

10CVPR: What is an object? (Matlab code, 200+ citations), journal version published in IEEE TPAMI 2012

10ECCV: Category Independent Object Proposals (100+ citations), journal version published in IEEE TPAMI 2014.

11CVPR: Proposal Generation for Object Detection using Cascaded Ranking SVMs (10+ citations)

11ICCV: Segmentation as selective search for object recognition, (C++ code, 60+ citations), journal version published in IJCV 2013.

14CVPR: BING: Binarized Normed Gradients for Objectness Estimation at 300fps, (C++ code)

7. 一些显而易见的趋势和机遇

Objectness,

Learning with 3D information

最后，请用心看：献给迷茫的你和我