港中文博士，「神经网络就像任性的小孩」港中文MMLab博士揭开OpenSelfSup自监督学习的秘密-香港留学网

【新智元导读】自然的场景理解是一项艰巨的任务。任务复杂多样，不同方法各有各的专用训练代码，难以结合、复用和改进。评价方案不统一，不同的方法难以在公平环境下对比；动辄百万千万的训练数据量，训练效率是个大问题。港中文MMLab开源自监督表征学习代码库，号称「一行命令跑评测」，并在各大上获得了不俗的成绩。

香港中文大学近年来在机器学习方面的成就，甚至盖过了大部分的理科院校，这一点实在难得。尤其是在自监督学习方面，不知不觉的就走在了学术研究的前排。

最近，港中文MMLab开源自监督表征学习代码库，号称「一行命令跑评测」，并在各大上获得了不俗的成绩。

使用实现，支持基于分类、重建、聚类、 bank、的多种自监督学习框架。目前收录了、、、、NPID、MoCo、等一系列表现较好的自监督表征学习方法，后续还将陆续跟进学术界最新算法。

推出后受到不少人关注，但也有不少人对如何上手这个代码库表示有一些疑惑。新智元邀请香港中文大学多媒体实验室的詹晓航博士，为我们解读关于自监督学习的归纳、思考和展望。

如何定义自监督学习？

自监督学习是指用于机器学习的标注（ truth）源于数据本身，而非来自人工标注。如下图，自监督学习首先属于无监督学习，因此其学习的目标无需人工标注。其次，目前的自监督学习领域可大致分为两个分支。

第一个是用于解决特定任务的自监督学习，例如上次讨论的场景去遮挡，以及自监督的深度估计、光流估计、图像关联点匹配等。另一个分支则用于表征学习。有监督的表征学习，一个典型的例子是分类。而无监督的表征学习中，最主要的方法则是自监督学习。典型的方法包括：解决、运动传播、旋转预测，以及最近很火的MoCo等等。

图一，自监督学习和其他学习类型的关系

判断一个工作是否属于自监督学习，除了无需人工标注这个标准之外，还有一个重要标准，就是是否学到了新的知识。举个简单的例子，例如image 是否属于自监督学习？

如果一篇image 的论文，其主要目的是提升的效果，那么它就不属于自监督学习，虽然它无需额外标注。但是如果它的目的是借助这个任务来学习图像的特征表达，那么它就是自监督学习（参考论文：）。

如下图，以自监督表征学习为例，我们通常需要设计一个自监督的proxy task，我们期望在解决这个proxy task的过程中，CNN能学到一些图像高级的语义信息。然后我们将训练好的CNN迁移到其他目标任务，例如图像语义分割、物体检测等等。

图二，典型的自监督表征学习流程

那么美国藤校留学，自监督的proxy task有哪些呢？如下图，第一行中的思路是将图像以某种方式破坏，然后用神经网络来学习恢复原图的过程。然而，将图像破坏，可能带来预训练的和目标任务不一致的问题。而第二行中的proxy tasks则无需破坏原图，因此避免了的问题。第三行中的方法是利用运动信息等多模态信息来学习图像特征。当然除了图中这些例子之外，还有各种各样其他有趣的自监督任务。

图三，自监督proxy tasks的例子

为什么自监督学习能学到新信息？

1. 先验

我们的世界是在严格的物理、生物规则下运行的，那么对这个世界的观测结果（图像）也必然存在一些先验规律。例如图像上色任务，就是利用了物体类别和物体颜色分布之间的关联；image ，则是利用了物体类别和形状纹理之间的关联；旋转预测任务，利用了物体类别和其朝向之间的关联。通过挖掘更多的先验，我们也能设计自己的自监督学习任务。

那么什么样的先验更有效呢？结论是，低熵的先验。如下图，左边的运动预测任务（ICCV 2015: Dense Flow From a Image），是从单张图片中直接预测运动场，其利用的先验是物体的运动倾向性。

而运动倾向性是比较歧义的，例如人在半蹲状态，难以预测下一时刻会站起来还是继续下蹲。因而，运动倾向性是一个高熵的先验。而右图的运动传播任务（CVPR 2019: Self- via ），从给定的稀疏运动来恢复完整运动场，利用的则是物体的运动学属性先验。

运动学属性，例如头部是刚体，四肢是铰接体等，是较为确定的先验，那么这就是一个低熵的先验。从实验结果也可以发现，在到分割任务上，运动传播比运动预测更好。

图四，运动预测和运动传播的对比

2. 连贯性

图片具有空间连贯性，视频具有时空连贯性。那么就可以利用这些特点来设计自监督任务。如下图：

图五，利用数据空间、时间连贯性的自监督任务

3. 数据内部结构

目前很火的基于的方法，我们可以将它们统一为任务。如下图，这类任务通常对图片做各种变换，然后优化目标是同一张图片的不同变换在特征空间中尽量接近，不同图片在特征空间中尽量远离。

图六，任务

对于这类任务港中文博士，「神经网络就像任性的小孩」港中文MMLab博士揭开OpenSelfSup自监督学习的秘密，下图提供了两种可能的优化后的特征空间。这两种结果都是符合优化目标的，即同一张图片的不同变换在特征空间中尽量接近，不同图片在特征空间中尽量远离。

然而，我们发现，实际的优化结果更偏向于第二种而非第一种，也就是说，虽然我们在解决的过程中并没有用的物体的类别标签，但是在优化后的特征空间中，同类的物体还是相对能够靠拢。这就证明了，数据之间是具有结构性和关联性的。则是巧妙地利用了这种结构性和关联性。

图七，的两种可能的优化后的特征空间

设计一个自监督学习任务还需要考虑什么？

1.捷径（）

以为例，如下图，如果我们让划分的patch之间紧密挨着，那么神经网络只需要判断patch的边缘是否具有连续性，就可以判断patch的相对位置，而不需要学到高级的物体语义信息。这就是一种捷径，我们在设计任务的过程中需要避免这样的捷径。

图八，解决时，patch之间不能紧密挨着

避免的方式也很简单，我们只需要让patch之间产生一些随机的间隔就行，如下图。

图9，让patch之间产生随机间隔

的其他捷径还包括色差、彗差、畸变、暗角等可以指示patch在图像中的相对位置的信息。解决方案除了想办法消除这些畸变外，还可以让patch尽量靠近图像中心。

图10，色差、彗差、畸变、暗角等可利用的捷径

2.歧义性（）

大多数利用先验来设计的自监督任务都会面临歧义性问题。例如中，一种物体的颜色可能是多种多样的，那么从灰度图恢复颜色这个过程就具有；再例如在中，有的物体并没有一个通常的朝向（例如俯拍放在桌上的圆盘子）。有不少已有工作在专门解决特定任务的歧义性问题，例如CVPR 2019的Self- by 。另外就是设计低熵的先验，因为低熵的先验也具有较低的歧义性。

3.任务难度

图11，中的不同难度

神经网络就像一个小孩，如果给他太简单的任务，他学不到有用的知识，如果给他太难的任务，他可能直接就放弃了。设计合理的难度也是一个需要考虑的方面。

如何上手？: 通用的自监督表征学习代码库

上手自监督学习是一件非常有难度的事情，主要体现在3个方面：

由于自监督学习任务复杂多样，不同方法各有各的专用训练代码，难以结合、复用和改进评价方案不统一，不同的方法难以在公平环境下对比动辄百万千万的训练数据量，训练效率是个大问题

针对这些问题，香港中文大学多媒体实验室和南洋理工大学开源了一套通用的自监督学习代码库，链接如下：

1.统一的框架

这套代码库设计了一个统一的代码框架，支持基于分类、重建、聚类、 bank、的多种自监督学习模式，目前收录了 , , , , NPID, MoCo, 等一系列表现较好的自监督表征学习方法。

2.标准化的评测方案

目前支持/ , Semi- , VOC07 SVM, VOC / COCO 等多个标准的评测方案。

3.高效率的分布式训练

中收录的算法全部都实现了多机多卡的分布式训练。

4.容易上手

环境配置，数据配置都有from 的脚本或者详细的指导，简单易行。训练和测试现有算法，都只需要一行命令搞定。

5.模块化设计：高度灵活性和可扩展性

用文件来定义各种参数和模块，方便参数调节和模块修改。采用高度模块化的设计，使得开发自己的自监督学习算法变得非常方便。

中还支持一些较复杂的调整，比如data 的组合、 rate 、独立调整某些网络参数的优化参数等。例如，你希望单独调整head中fully- layer的和 rate，或者中某几层的 decay等等，可以在中: 下用正则表达式筛选出对应网络参数然后指定这些值，而不需要改动代码。如下是中指定head (fc layer)的为0的设置。

具体介绍，可参考：

这个总结主要基于自己的思考，也许不一定非常到位，权当抛砖引玉。最后，希望大家都能够设计出有趣又有用的自监督学习任务，为这个领域添砖加瓦。

作者介绍

本文的作者詹晓航，本科毕业于清华大学港中文博士，目前是香港中文大学多媒体实验室三年级博士生，指导老师是Chen Loy、林达华和汤晓鸥教授。

曾在CVPR、ECCV等计算机视觉顶级会议上发表论文十余篇，包括五篇第一作者论文。另外曾获国家奖学金、清华大学本科优秀毕业生、Hong Kong PhD 、自监督学习挑战赛冠军等荣誉。

他的博士期间主要研究方向为无监督学习，具体工作涵盖人脸聚类、自监督场景理解、无监督表征学习等。

个人主页：

香港中文大学博士申请，香港中文大学法律博士专业研究生申请要求

JD项目是通用性极强的硕士学位（注：JD属于授课型硕士，不同于内地的“博士”，其主要目的就是培养律师、法务和法律工作者），学生日后可以从事法律职业或担任各工作领域的领导角色。香港中文大学JD项目也被国外顶尖大学的法律专业认可。该项目的一个重要特征是它的形式和内容完全是研究生层面的。作为JD学生，学生只能与其他研究生共享课程，还可以选择各种令人兴奋的选修课程。JD课程是一个全方位的研究生法学位，适用于拥有非法学学士学位的毕业生，这可能会导致他们进入法律专业或担任各种工作领域的领导角色。它受人尊敬和国际认可学位美国藤校留学，由许多大学在国外领先司法管辖区授予，并为学生提供丰富的法律普通教育。法学院是一个年轻，有动力和乐观的团体。法学博士课程以及所有参与其中的教师和学生都反映了这些特征。学生来自各种学科，其中包括自然科学和社会科学，艺术香港中文大学博士申请，香港中文大学法律博士专业研究生申请要求，经济学，工程学，医学和数学。我们的学院具有高度的国际性，教授和其他教师来自20多个司法管辖区，包括欧洲，北美，澳大利亚，新西兰，中国大陆，香港，台湾和亚洲其他地区。在加入香港中文大学的法学博士课程后，您将参与一个致力于教学、研究和国际交流的合作和创新社区。我们为有才能的人提供机遇和挑战。我们将尽一切可能丰富您的教育经验。我们相信香港中文大学博士申请，我们将共同建立一个专业的伙伴关系，让您为香港社会的发展以及法治的辩护和进步作出贡献。

香港留学网

微信扫一扫关注我们

港中文博士，「神经网络就像任性的小孩」港中文MMLab博士揭开OpenSelfSup自监督学习的秘密

作者: gangzai303

发表回复取消回复

作者: gangzai303

香港理工大学博士申请，博士申请 | 西湖大学吴泰霖老师招收AI+Science方向博士生/博士后/实习生

香港授课型博士，香港教育大学教育学博士（中文班）已开放申请！可在职+中文授课

为您推荐

香港 经济学博士，博士迎新回顾 | 2023经管学院博士迎新圆满结束

香港有教育学的博士，教育学博士在香港大学如何就读？

香港侵会大学博士，UIC创校校长吴清辉获颁香港浸会大学荣誉博士学位

香港 读博士生，香港理工大学 MIND 实验室招收 EEG 信号处理和语音增强方向全奖博士生/博士后

香港 读博士生，汉中79岁奶奶独自游香港 复旦大学暖心博士生为她当向导

发表回复 取消回复

香港经济学博士，博士迎新回顾 | 2023经管学院博士迎新圆满结束

香港读博士生，香港理工大学 MIND 实验室招收 EEG 信号处理和语音增强方向全奖博士生/博士后

香港读博士生，汉中79岁奶奶独自游香港复旦大学暖心博士生为她当向导

发表回复取消回复