最近,港中文MMLab开源自监督表征学习代码库,号称「一行命令跑评测」,并在各大上复现结果。
使用 实现,支持基于分类、重建、聚类、 bank、 的多种自监督学习框架。目前收录了 、 、、、NPID、MoCo、 等一系列表现较好的自监督表征学习方法,后续还将陆续跟进学术界最新算法。
推出后受到不少人关注,但也有不少人对如何上手这个代码库表示有一些疑惑。新智元邀请香港中文大学多媒体实验室的詹晓航博士,为我们解读关于自监督学习的归纳、思考和展望。
如何定义自监督学习?
自监督学习是指用于机器学习的标注( truth)源于数据本身,而非来自人工标注。如下图,自监督学习首先属于无监督学习,因此其学习的目标无需人工标注。其次,目前的自监督学习领域可大致分为两个分支。
第一个是用于解决特定任务的自监督学习,例如上次讨论的场景去遮挡港中文博士奖学金,「神经网络就像任性的小孩」港中文博士揭开自监督学习的秘密,以及自监督的深度估计、光流估计、图像关联点匹配等。另一个分支则用于表征学习。有监督的表征学习,一个典型的例子是分类。而无监督的表征学习中,最主要的方法则是自监督学习。典型的方法包括:解决 、运动传播、旋转预测,以及最近很火的MoCo等等。
判断一个工作是否属于自监督学习,除了无需人工标注这个标准之外,还有一个重要标准,就是是否学到了新的知识。举个简单的例子,例如image 是否属于自监督学习?
如果一篇image 的论文,其主要目的是提升的效果,那么它就不属于自监督学习,虽然它无需额外标注。但是如果它的目的是借助这个任务来学习图像的特征表达,那么它就是自监督学习(参考论文: )。
如下图,以自监督表征学习为例,我们通常需要设计一个自监督的proxy task,我们期望在解决这个proxy task的过程中,CNN能学到一些图像高级的语义信息。然后我们将训练好的CNN迁移到其他目标任务,例如图像语义分割、物体检测等等。
那么,自监督的proxy task有哪些呢?如下图,第一行中的思路是将图像以某种方式破坏,然后用神经网络来学习恢复原图的过程。然而,将图像破坏,可能带来预训练的和目标任务不一致的问题。而第二行中的proxy tasks则无需破坏原图,因此避免了的问题。第三行中的方法是利用运动信息等多模态信息来学习图像特征。当然除了图中这些例子之外,还有各种各样其他有趣的自监督任务。
为什么自监督学习能学到新信息?
1. 先验
我们的世界是在严格的物理、生物规则下运行的,那么对这个世界的观测结果(图像)也必然存在一些先验规律。例如图像上色任务,就是利用了物体类别和物体颜色分布之间的关联;image ,则是利用了物体类别和形状纹理之间的关联;旋转预测任务,利用了物体类别和其朝向之间的关联。通过挖掘更多的先验,我们也能设计自己的自监督学习任务。
那么什么样的先验更有效呢?结论是,低熵的先验。如下图,左边的运动预测任务(ICCV 2015: Dense Flow From a Image) ,是从单张图片中直接预测运动场,其利用的先验是物体的运动倾向性。
而运动倾向性是比较歧义的,例如人在半蹲状态,难以预测下一时刻会站起来还是继续下蹲。因而,运动倾向性是一个高熵的先验。而右图的运动传播任务(CVPR 2019: Self- via ),从给定的稀疏运动来恢复完整运动场,利用的则是物体的运动学属性先验。
运动学属性,例如头部是刚体,四肢是铰接体等,是较为确定的先验,那么这就是一个低熵的先验。从实验结果也可以发现,在到分割任务上,运动传播比运动预测更好。
2. 连贯性
图片具有空间连贯性,视频具有时空连贯性。那么就可以利用这些特点来设计自监督任务。如下图:
3. 数据内部结构
目前很火的基于 的方法,我们可以将它们统一为 任务。如下图,这类任务通常对图片做各种变换,然后优化目标是同一张图片的不同变换在特征空间中尽量接近,不同图片在特征空间中尽量远离。
对于这类任务,下图提供了两种可能的优化后的特征空间。这两种结果都是符合 优化目标的,即同一张图片的不同变换在特征空间中尽量接近港中文博士奖学金,不同图片在特征空间中尽量远离。
然而,我们发现,实际的优化结果更偏向于第二种而非第一种,也就是说,虽然我们在解决 的过程中并没有用的物体的类别标签,但是在优化后的特征空间中,同类的物体还是相对能够靠拢。这就证明了,数据之间是具有结构性和关联性的。 则是巧妙地利用了这种结构性和关联性。
设计一个自监督学习任务还需要考虑什么?
1.捷径()
以 为例,如下图,如果我们让划分的patch之间紧密挨着,那么神经网络只需要判断patch的边缘是否具有连续性,就可以判断patch的相对位置美国top30名校留学,而不需要学到高级的物体语义信息。这就是一种捷径,我们在设计任务的过程中需要避免这样的捷径。
图八,解决 时,patch之间不能紧密挨着
避免的方式也很简单,我们只需要让patch之间产生一些随机的间隔就行,如下图。
图9,让patch之间产生随机间隔
的其他捷径还包括色差、彗差、畸变、暗角等可以指示patch在图像中的相对位置的信息。解决方案除了想办法消除这些畸变外,还可以让patch尽量靠近图像中心。
图10,色差、彗差、畸变、暗角等可利用的捷径
2.歧义性()
大多数利用先验来设计的自监督任务都会面临歧义性问题。例如中,一种物体的颜色可能是多种多样的,那么从灰度图恢复颜色这个过程就具有;再例如在 中,有的物体并没有一个通常的朝向(例如俯拍放在桌上的圆盘子)。有不少已有工作在专门解决特定任务的歧义性问题,例如CVPR 2019的Self- by 。另外就是设计低熵的先验,因为低熵的先验也具有较低的歧义性。
3.任务难度
图11, 中的不同难度
神经网络就像一个小孩,如果给他太简单的任务,他学不到有用的知识,如果给他太难的任务,他可能直接就放弃了。设计合理的难度也是一个需要考虑的方面。
如何上手?: 通用的自监督表征学习代码库
上手自监督学习是一件非常有难度的事情,主要体现在3个方面:
由于自监督学习任务复杂多样,不同方法各有各的专用训练代码,难以结合、复用和改进评价方案不统一,不同的方法难以在公平环境下对比动辄百万千万的训练数据量,训练效率是个大问题针对这些问题,香港中文大学多媒体实验室和南洋理工大学开源了一套通用的自监督学习代码库,链接如下:
1.统一的框架
这套代码库设计了一个统一的代码框架,支持基于分类、重建、聚类、 bank、 的多种自监督学习模式,目前收录了 , , , , NPID, MoCo, 等一系列表现较好的自监督表征学习方法。
2.标准化的评测方案
目前支持/ , Semi- , VOC07 SVM, VOC / COCO 等多个标准的评测方案。
3.高效率的分布式训练
中收录的算法全部都实现了多机多卡的分布式训练。
4.容易上手
环境配置,数据配置都有from 的脚本或者详细的指导,简单易行。训练和测试现有算法,都只需要一行命令搞定。
5.模块化设计:高度灵活性和可扩展性
用文件来定义各种参数和模块,方便参数调节和模块修改。采用高度模块化的设计,使得开发自己的自监督学习算法变得非常方便。
中还支持一些较复杂的调整,比如data 的组合、 rate 、独立调整某些网络参数的优化参数等。例如,你希望单独调整head中fully- layer的和 rate,或者中某几层的 decay等等,可以在中: 下用正则表达式筛选出对应网络参数然后指定这些值,而不需要改动代码。如下是中指定head (fc layer)的为0的设置。
具体介绍,可参考:
这个总结主要基于自己的思考,也许不一定非常到位,权当抛砖引玉。最后,希望大家都能够设计出有趣又有用的自监督学习任务,为这个领域添砖加瓦。
作者介绍
本文的作者詹晓航,本科毕业于清华大学,目前是香港中文大学多媒体实验室三年级博士生,指导老师是Chen Loy、林达华和汤晓鸥教授。
曾在CVPR、ECCV等计算机视觉顶级会议上发表论文十余篇,包括五篇第一作者论文。另外曾获国家奖学金、清华大学本科优秀毕业生、Hong Kong PhD 、自监督学习挑战赛冠军等荣誉。
他的博士期间主要研究方向为无监督学习,具体工作涵盖人脸聚类、自监督场景理解、无监督表征学习等。
个人主页:
香港音乐博士,【最新】试论香港专业音乐教育的定位
黄钟 武汉音乐学院学报 ∞年第 期Ⅲ 讫硼 啪 蛐 叩鲫册 商 刘靖之文章编号 弹 试论香港专业音乐教育的定位摘要文章以香港历史为背景以各专业音乐教育为主要研究对象通过对课程内容、演奏技巧、作曲技法、电子音乐等方面的研究指出香港音乐教育在技巧或技法上模仿欧美忽略了理论和修养方面的培养对中国音乐和欧美音乐以外的音乐文化仍然未够重视香港音乐博士,【最新】试论香港专业音乐教育的定位。并以此探讨香港专业音乐教育的定位问题。关键词专业和高等音乐教育音乐课程艺术行政中西音乐比较中图分类号 文献标识码严格地来讲中国的专业音乐教育始自 年成立的上海音乐院后改名为“国立上海音乐专科学校”而“专业”这个名词其内涵是十分现代化的。从这个角度来探讨香港的专业音乐教育本文在时期上的上限应该是在第二次世界大战之后因为香港在割让给英国 之后直到抗日战争 英国称之为“太平洋战争” 战胜 不仅没有专业音乐教育连中、小学音乐教育都可有可无。
假如“专业音乐教育”是指从音乐教育机构培养出来的毕业生学成后可以在社会里各个音乐行业从事实际工作如演奏、指挥、作曲、音乐行政管理、主持广播节目、为电影配乐、灌制音乐录音等等那么大学音乐系或音乐学院的毕业生算不算“专业音乐”人才 若依照律师、医生、建筑师、会计等专业标准来要求大学音乐系或音乐学院的毕业生还不能算是合格的专业人员因为他们没有像律师、医生、建筑师、会计师等专业那样在大学毕业后经过一两年实习、考牌及格后成为正式、拥有执业资格的专业人员。音乐学院毕业的演唱、演奏、指挥、作曲系学生当然可以算是“专业音乐”人才但音乐学系和大学音乐毕业生则只能算是“学者”不是“专业音乐”家。也正由于这个原因伯恩斯坦、马友友等人读完哈佛大学学位后还跑去寇蒂斯、朱莉娅音乐学院进修演奏技巧。我提出这个问题是想提醒音乐教育界的决策者在制定高等和专业音乐教育策略上分清学术、理论和技巧等不同领域、不同的标准和要求。依我个人之见学作曲、演奏、演唱的用不着去念博士因为他们最终的目标是要成为“大师” 咖 学音乐学、音乐美学、音乐史和理论分析的则需要攻读博士因为他们最终的目标是要做“学者”、“教授”。
本文所讨论的“专业音乐教育”是指香港中学教育以上的音乐教育包括大学音乐系演艺学院里的音乐学院、私立音乐专科学校和私立音乐学院。一、历史背景专业音乐教育在香港最初是以业余兼时形式出现的。抗日战争胜利后国共内战一些共产党员音乐工作者于 年 月初在香港成立“中华音乐院”院长由著名小提琴家马思聪担任但实际工作由从上海南下的赵讽和李凌负责真正的领导是中国共产党南方局党委。这所音乐院集中了为数颇多的音乐家任教也培养了不少的学生以声乐歌咏为主电影音乐为次。 舛 年中华人民共和国成立后音乐院的部份教师留港发展大部份则北返大陆成为中国内地的音乐干部。中华音乐院结束后另所夜间“以培养宗教音乐基本人才促进圣乐布道工作”为宗旨的“基督教中国圣乐院”成立。抗日战争时期在重庆青木关国立音乐学院毕业的邵光于 年在香港教育署立案注册“基督教中国圣乐院”为专科音乐学校香港音乐博士。这所专科音乐学校于 世纪 年代中自置校舍并改名为“香港音乐专科学院”。现以培养中级音乐人才为主学生毕业后名继续深造进修有的则返回东南亚国家工作。上述两所专业音乐教育机构是在香港经济非常因难的时期成立的。到了 年代初德明书院和清华书院也先后建立了音乐系前者只办了两年 后者作者简介刘靖之 男哲学博士香港大学亚洲研究中心名誉教授和名誉研究员。收稿日期 — 万方数据