How to read a paper

Published on October 9, 2020

没想到五年后能在中科大见到FasterCNN的作者——任少卿师长回国牵头新成立AGI通用人工智能研究所。2020-10-09写的这篇《如何阅读一篇科研论文》博客，2025-01-08在图C一边听大佬们的学术报告，一边自己在这重启博客，挑到这一篇博客开始迁移过来吧。可惜五年时光匆匆易逝，如今却在科研方面毫无建树，属实令人惭愧，希望未来还有机会能够跟上今天所见各位大牛的步伐，与在座诸君共勉。

检索论文

知网（学校资源库）、知乎、各大顶会……

下载论文

sci-hub

阅读论文

拿到一篇文献后，不妨先问自己几个问题：
（1）这篇文章属于什么领域或方向？
（2）解决了什么问题？为什么这个问题这么重要？
（3）使用了什么方法和模型？为什么这个方法可以解决这个问题？
（4）核心结论是什么？下一步还可以怎么做？

示例

信号处理课程论文报告

报告要求

The project report requires you to conduct a comprehensive self-proposed survey research on recent developments in the signal processing. The research topics can be relevant to the materials in your oral presentation, but not limited. You should focus on a particular topic with *only one* particular *journal* paper. The journal paper should be published in recent two years 2019−2020. The page limit of final project is between 10-15 with at least 10 references.

*Language:* Mandarin 𝑆𝑢𝑔𝑔𝑒𝑠𝑡𝑒𝑑 or English 𝑂𝑝𝑡𝑖𝑚𝑎𝑙

*Submission:* All the project report should be submitted before *Week 11 𝑁𝑜𝑣15𝑡ℎ.* The upload files should include the checking report of your academic integrity, with overlapping rate less than *20%*. Fail to upload the plagiarism checking report will not get the marks in your final exam.

*Academic* *Integrity:* All the final report should avoid plagiarism, collusion and misconduct, which will include the checking report from the online academic integrity system. For the Mandarin version, please click http://www.biguolunwen.com/?aid=983 or scan the QR code. For English version, please click http://www.turnitin.com.cn/ or other system.

选取论文

*《Invertible Image Rescaling》*

ECCV2020oral 可逆的图像变换

论文地址：https://arxiv.org/pdf/2005.05650.pdf

源码地址：https://github.com/pkuxmq/Invertible-Image-Rescaling

前言概述部分

本文是对ECCV 2020 Oral论文《Invertible Image Rescaling》的解读。这篇论文提出了通过构建可逆缩放网络模型（IRN，Invertible Rescaling Net）来解决图像压缩或缩放后的还原问题，并且介绍了其相关构建方法和原理，可以从本质上缓解求解不适定问题（ill-posed problem）带来的困难。相对于前人完全忽视图像缩放中不适定问题的做法，其效果上的提升也非常显著。信息丢失𝐼𝑛𝑓𝑜𝑟𝑚𝑎𝑡𝑖𝑜𝑛𝐿𝑜𝑠𝑠所导致的不适定问题（ill-posed）在现实中也大量存在，该论文提供的对丢失信息（Lost Information）进行建模的视角，相信可以对类似任务也有一定的参考价值。

解读主体部分

研究背景

信号在我们的日常生活中随处可见，例如：声音、图像、视频等。然而在信号的传输或存储过程中，往往会面临信号失真、质量变差等问题。比如，为了让图片能够适配各种不同分辨率的屏幕或者是为了节省图片的存储空间，高分辨率的图片通常会被缩减规模成低分辨率的图片，而在这个过程中发生了信息的损失，因此新的问题也随之而来，在图片被降低分辨率之后，如果要再次放大图片，就需要想办法恢复原来图片的分辨率和细节。

然而，在此之前传统的图片缩放方法由于损失了图片的高频信息所以并不是单映射的（non-injective），这就导致了图片缩减（downscale）后再扩大（upscale）的病态问题（ill-posed problem），即对降采样后图片的原图求解的病态𝑖𝑙𝑙−𝑝𝑜𝑠𝑒𝑑问题。

这是一个病态问题的原因是在降采样的过程中存在信息丢失𝑖𝑛𝑓𝑜𝑟𝑚𝑎𝑡𝑖𝑜𝑛𝑙𝑜𝑠𝑠，以至于无法很好地还原回原图。而前人的做法一般是使用一个超分辨率的卷积神经网络，尝试从大量的数据中强行学习低分辨率到高分辨率的映射关系；或者使用encoder网络对原图进行降采样，同时使用decoder网络还原图片，二者进行联合训练𝑗𝑜𝑖𝑛𝑡𝑙𝑦𝑡𝑟𝑎𝑖𝑛𝑖𝑛𝑔达到更好的效果。但以上这些方法都没有从本质上解决病态问题，效果也不尽如人意。因此我们需要更好的方法来解决病态问题。

报告PPT部分

不知道同学们平日里上网有没有遇到过这种情况：自己精心拍摄的高清照片/视频，想发给朋友or分享到朋友圈/微博/抖音/知乎，结果上传文件之后，直接被无良服务器压成超低分辨率渣画质。甚至有些图片/表情包在经过多次传播之后，画质已经糊到惨不忍睹。

其实，图片的降采样缩放可以说是对数字图像最常见的操作了，它的用处多种多样：压缩图片尺寸、节省服务器存储or带宽、适配不同分辨率的屏幕等等。像现在服务器资源这么贵，大家发微博/知乎也不交钱，顶多给各位多塞点广告，所以高清图片和视频自然是能压则压，能分得清张一山和夏雨就可以了。

如何恢复降采样后的图片是图像处理中一个非常有挑战的问题，一直没有被很好的解决。今天给大家介绍一篇在ECCV2020上最新的Oral工作，巧妙地尝试从本质上解决这个问题。

这种情况是由于程序为了减轻服务器端的传输和存储压力，主动对信号进行了采样、压缩等操作，而这些操作会不可避免地引起信息丢失（information loss）的问题，造成对原始信号还原的挑战性。直到今天，信息丢失问题仍没有被很好地解决。

……

补充文献资料部分

小波变换

形象易懂讲解算法I——小波变换

于是小波变换的出发点和STFT还是不同的。STFT是给信号加窗，分段做FFT；而小波直接把傅里叶变换的基给换了——将无限长的三角函数基换成了有限长的会衰减的小波基。这样不仅能够获取频率，还可以定位到时间了~

小波

可逆神经网络模型（Invertible NN, INN）

可逆神经网络模型

神经网络的可逆形式

可逆神经网络 Invertible Neural Networks

对于一些问题，研究人员建立了复杂的理论模型，用于实现隐式参数到可测量值的映射，这种映射称之为前向过程。逆向过程即根据测量值得到隐式参数，这也是实际需要解决的问题。但是逆向过程难以解决，因为在前向过程中丢失了一些关键信息。

如果直接用传统神经网络去训练逆向过程，则效果会很受限，因为逆向过程为一对多映射。神经网络训练出的模型，最好情况是识别最可能的解决方案；最差情况是采用多种解决方案的平均值。

INN 有三个特征：（i）从输入到输出的映射是双射的，即它的逆存在（ii）正向和反向映射都是有效可计算的（iii）映射具有易处理的雅可比行列式，因此概率可以通过变量公式明确转换。

标准NN v.s. INN

标准 NN 直接对逆向过程进行训练，但其需要一个监督损失（SL）项，来区分真正的 x 与预测的 x（我们可以暂时把 SL 理解为一个确定的代价函数），而 y->x 这种一对多映射使得传统 NN 受到很大限制。INN 只对前向过程使用 SL，而由于并没有一个确定的 x 值，因此预测的 x 属于无监督损失（USL），需要遵循之前的 p𝑥；另外，潜在变量 z 需要服从高斯分布，也是属于 USL。

由于在前向过程中会丢失一些信息，因此引入了额外的潜在输出变量 z，被训练去抓获与 x 有关的但并未包含在 y 内的信息。此外，需要训练网络根据高斯分布对 p𝑧 进行调整。即，p𝑥|𝑦 被调整为一个确定的函数 x = g𝑦,𝑧，这个函数将已知的分布 p𝑧 在满足 y 的情况下转换到 x 空间。

Encoder-Decoder 网络

Encoder-Decoder模型

所谓encoder-decoder模型，又叫做编码-解码模型。这是一种应用于seq2seq问题的模型。

那么seq2seq又是什么呢？简单的说，就是根据一个输入序列x，来生成另一个输出序列y。seq2seq有很多的应用，例如翻译，文档摘取，问答系统等等。在翻译中，输入序列是待翻译的文本，输出序列是翻译后的文本；在问答系统中，输入序列是提出的问题，而输出序列是答案。

为了解决seq2seq问题，有人提出了encoder-decoder模型，也就是编码-解码模型。所谓编码，就是将输入序列转化成一个固定长度的向量；解码，就是将之前生成的固定向量再转化成输出序列。

encoder-decoder模型虽然非常经典，但是局限性也非常大。最大的局限性就在于编码和解码之间的唯一联系就是一个固定长度的语义向量C。也就是说，编码器要将整个序列的信息压缩进一个固定长度的向量中去。但是这样做有两个弊端，一是语义向量无法完全表示整个序列的信息，还有就是先输入的内容携带的信息会被后输入的信息稀释掉，或者说，被覆盖了。输入序列越长，这个现象就越严重。这就使得在解码的时候一开始就没有获得输入序列足够的信息，那么解码的准确度自然也就要打个折扣了

不适定问题𝑖𝑙𝑙−𝑝𝑜𝑠𝑒𝑑𝑝𝑟𝑜𝑏𝑙𝑒𝑚

计算机视觉中的不适定问题

适定问题𝑤𝑒𝑙𝑙−𝑝𝑜𝑠𝑒𝑑𝑝𝑟𝑜𝑏𝑙𝑒𝑚和不适定问题𝑖𝑙𝑙−𝑝𝑜𝑠𝑒𝑑𝑝𝑟𝑜𝑏𝑙𝑒𝑚都是数学领域的术语。

前者需满足三个条件，若有一个不满足则称为”ill-posed problem”：

a solution exists
解必须存在
the solution is unique
解必须唯一
the solution’s behavior changes continuously with the initial conditions.
解能根据初始条件连续变化，不会发生跳变，即解必须稳定

上述来自wiki。

图像处理中不适定问题（ill posed problem）或称为反问题（inverse Problem）的研究从20世纪末成为国际上的热点问题，成为现代数学家、计算机视觉和图像处理学者广为关注的研究领域。数学和物理上的反问题的研究由来已久，法国数学家阿达马早在19世纪就提出了不适定问题的概念:称一个数学物理定解问题的解存在、唯一并且稳定的则称该问题是适定的（Well Posed）.如果不满足适定性概念中的上述判据中的一条或几条，称该问题是不适定的。典型的图像处理不适定问题包括：图像去噪（Image De-nosing），图像恢复（Image Restorsion），图像放大（Image Zooming），图像修补（Image Inpainting），图像去马赛克（image Demosaicing），图像超分辨𝐼𝑚𝑎𝑔𝑒𝑠𝑢𝑝𝑒𝑟−𝑟𝑒𝑠𝑜𝑙𝑢𝑡𝑖𝑜𝑛等。迄今为止，人们已经提出许多方法来解决图像处理中的不适定性。但是如何进一步刻画图像的边缘、纹理和角形等图像中重要视觉几何结构，提高该类方法在噪声抑制基础上有效保持结构和纹理能力是有待深入研究的问题。

Super Resolution（超分辨率）

漫谈深度学习在Super Resolution（超分辨率）领域上的应用

超分辨率技术（Super-Resolution, SR）

超分辨率技术（Super-Resolution, SR）是指从观测到的低分辨率图像重建出相应的高分辨率图像，在监控设备、卫星图像和医学影像等领域都有重要的应用价值。

Super Resolution（SR），这个方向做的事情是给你一张低分辨率的小图（Low Resolution，LR），通过算法将这张LR放大成一张高分辨率的大图（High Resolution，HR）。这个事情乍一听挺简单的，普通的插值算法即可胜任，其实大有玄机，主要的难点在于细节的恢复，如下两张图，第一张图是原图，第二张图是将原图进行3倍下采样后，用Bicubic插值算法[1]进行SR恢复的图像，从图像整体来看，第二张图比第一张图要显得糊一些，如果将蝴蝶的翅膀纹路放大看可以发现，第二张图的细节已经很不清晰，纹路间的边缘已经模糊。这正是SR这个方向所面临的挑战。