关于ZAKER 融媒体解决方案 合作 加入

两个月三项成果,对标谷歌!独家对话小米 AutoML 团队,如何让模型搜索更公平

两个月三项成果,对标谷歌!独家对话小米 AutoML 团队,如何让模型搜索更公平

大数据文摘出品

作者:曹培信

机器学习自动化(AutoML)正在引领机器学习的下一个时代,而要想让机器自己学会 " 炼丹 ",其中最关键的步骤就是,找到最合适的算法模型,也即自动化神经架构搜索(Neural Architecture Search,简称 NAS)。

要快速、高效判断哪个模型最有效并不是一件容易事。NAS 界目前一种主流的方法是谷歌大脑创立的One-Shot派。

One-Shot,顾名思义,只完整训练一个超网,主张权重共享,对不同路径进行采样作为子模型训练,并基于此对模型排名,这样就可以更快速判断模型性能,提高搜索效率。

就像通过一次 " 考试 " 来判断这群 " 模型们 " 的能力,通过最终分数决定排名。

看似很公平,但是,One-Shot 模式下,虽然考题一致,但是学生的学习时间、训练方式都不尽相同,很容易导致好的模型由于没有获得充分的训练,而表现不佳。

在 One-Shot 模式基础上,小米 AI 实验室的 AutoML 团队在七月初提出了一个新的概念——FairNAS,来解决这一模型训练中的 " 公平 " 问题。并且在 ImageNet 1k 分类任务 MobileNetV2 量级上,FairNAS 击败了 Google Brain 在 CVPR 2019 发布的 MnasNet。

在 FairNAS 基础上,上周,小米 AutoML 团队展示出一项新的研究成果:MoGA——移动端 GPU 敏感,对多目标进行加权处理,鼓励增大参数量,直接面向在移动端的落地应用,在业内引发了广泛关注。

昨天,小米 AI 实验室 AutoML 团队又重磅发布了最新成果SCARLET,超过 Google Brain 首席科学家 Quoc Le 团队提出的 EfficientNet 同量级模型(ICML 2019),这次是让自动化神经网络搜索具备了可伸缩性,完善了 7 月初发表的 FairNAS。

从 FairNAS,到 MoGA,再到昨天发布的 SCARLET,这支团队只用了不到两个月的时间。

至此,小米 AutoML 团队打造了 FairNAS、MoGA、SCARLET 三部曲,在 ImageNet 1k 分类任务上分别超过 Google 顶级团队的 MnasNet、MobileNetV3、EfficientNet。

大数据文摘第一时间对三篇论文的主创人员、小米 AutoML 团队的高级软件工程师初祥祥和软件工程师张勃进行了专访。这也是这支年轻的团队,首次公开对这三份研究进行解读。

从反直觉问题入手,两个月研发 " 三部曲 ",直接对标谷歌

"公平",初祥祥在采访中多次提到了这个关键词,而这也是他们在今年五月份,开始进行 FairNAS 项目的灵感来源。

" 我们 FairNAS 技术一开始的 insight 是来自于谷歌大脑,当时发现 one shot 论文里面公布的结果,采样了大概几百个模型,但是准确率是很大的一个 range,从 30% 到 90%。但是根据我们之前做的实验,这个 range 实际上是比较异常的。多数模型的 range 比较窄,比如在 80% 到 95%。"

于是,初祥祥团队对此进行了验证,得出了一个很反直觉的结论:看似公平的随机采样模型的 Single Path,30 次迭代之后,子模型得到公平训练的概率近似等于 0。

初祥祥说:" 这就是我们最原始的 insight,包括最新发布的 SCARLET,灵感也是来源于 MIT、Facebook 的论文中架构可伸缩性的问题。"

初祥祥也表示:" 其实我们这一路走来都是在对标谷歌大脑在 NAS 的最新研究。"

从大厂论文中的反直觉点入手,直接和强者对标,这也许就是小米 AutoML 团队强大内驱力的由来。

接下来,先跟着文摘菌先来一起看看这篇最新的发布——SCARLET

SCARLET:解决共享参数超网训练的可伸缩问题

小米 AutoML 团队的最新的论文,提出了具备伸缩功能的自动化神经网络搜索 SCARLET,通过线性等价变换,解决了 one-shot 路线中超网训练伸缩性较差的问题。

这篇论文的灵感同样来自对已有研究的质疑,初祥祥表示:"FairNAS 虽然能解决采样不公平的问题,但是要做搜索 layer 的通道数往往都是固定的。而很多学者包括 MIT、Facebook 的研究者都会在论文中称,他们的 NAS 架构是可伸缩的,但很难找到具体的中间过程。比如一个有 18 层的可伸缩的 NAS,理论上可缩到一层,但是这中间的具体过程却很少有人去提,或者只提一下是可伸缩的,但是没有提最后的效果,经过验证后我们发现这个伸缩对结果影响很大,捣乱到非常严重的地步。"

SCARLET 系列是直接对标 Google Brain 提出的 EfficientNet,在 ImageNet 1k 分类任务中达到 76.9%的 Top-1 精度,目前是 <390M FLOPs 量级的 SOTA。

One-shot 自动化神经架构搜索的特点是在一次运行中快速训练一个超级网络,这种权重共享方法的一个关键问题是缺乏可伸缩性。尽管对 identity 块进行简单的调整就可以得到一个可伸缩的超级网络,但这会引起训练不稳定,从而使模型的排名结果变得不可靠。

而 SCARLET 引入了线性等价变换来缓和训练波动,并证明了这种变换后的模型在表示能力上与原模型等价。因此整体方法命名为 SCARLET ( SCAlable supeRnet with Linearly Equivalent Transformation ) 。

SCARLET 模型结构

当前 SOTA 模型在 ImageNet 数据集上的对比

看完 SCARLET,让我们再来回顾一下三部曲的前两部,FairNASMoGA

FairNAS:如何避免神经网络中的马太效应,不让 " 富者愈富,穷者愈穷 "

7 月初,小米 AI 实验室 AutoML 团队公布了最新研究成果 FairNAS,在 ImageNet 1k 分类任务 MobileNetV2 量级上,击败了 MIT 韩松团队在 ICLR2019 发布的 Proxyless mobile,Google Brain 在 CVPR 2019 发布的 MnasNet,及 Facebook 的 FBNet。

FairNAS 的核心解决的就是多次迭代后超网训练会导致不公平的问题。

张勃对于这种不公平采样有个非常形象的比喻:" 类比一下,其实就像社会学概念里面的马太效应。就是说富者恒富,穷者就变得越穷,对于神经网络也是一样,如果把神经网络里面的模型比作孩子的话,这有一部分在穷人家庭长大,有一部分在这富人家庭长大,在穷人家庭长大的没有得到好的培养,所以他们可能资质很高,但是并没有被发掘出来,所以需要让所有的模型都到充分的训练。就像把所有小孩放到同一个封闭式学校,大家都在这里,跟家庭是隔离的,全是在学校培养,那 20 年后,如果他们真正表现出差异,那就是他禀赋及能力的差异。"

针对这个问题,小米 AutoML 团队采用的是 "不放回策略"。

另外要解决的是,每一次的迭代涉及到反向传播和更新参数,从而产生的次序问题。解决的核心方式是 "只累积梯度,不更新参数"。

张勃依然是用教育来比喻:" 这就相当于考试的时候,发卷子有先后顺序,但是先拿到卷子的人不能答题,要发完后一起答题。"

MoGA:移动端 GPU 敏感,直接面向落地

对于移动端来说,分类是其他计算机视觉任务的基础,图形的分割和检测都需要用分类网络做骨干网。随着 CV 在移动端应用的普及,包括谷歌在内的科技公司都把目光投向了移动端可用的轻型自动化神经网络搜索架构。

然而 Google Brain 等团队的研究普遍只考虑移动端 CPU 的延迟,但实际在移动端的使用中,往往都运行在 GPU 上,两者的延迟并非简单的线性,不仅和硬件相关,还与框架实现相关。

于是在 8 月 6 日,小米 AutoML 团队又展示出一项新的研究成果:MoGA,MoGA 提出了移动端 GPU 敏感的 NAS,对多目标进行加权处理,鼓励增大参数量,而对 GPU 敏感的特性,使得 MoGA 直接面向在移动端的落地应用。

在数据上,MoGA 已经超过了 Google Brain 和 Google AI 团队联合的代表作 MobileNetV3(目前谷歌开源 MobileNetV3 还未开源),在 ImageNet 1K 分类任务 200M 量级,在移动端 GPU 维度上超过 MobileNetV3。

初祥祥在解释为什么要做移动端 GPU 敏感的 NAS 时说:" 谷歌的论文里面的实验都是 CPU 上跑,但是其实我们团队来做业务,还有国内很多的互联网公司手机公司都在做 AI 的应用上,很少在 CPU 上跑。这是因为在手机上,比如 845 这种相对主流配置的一点,它的 GPU 速度大概是 CPU 速度的四倍,这就是解释了为什么国内大家愿意用 GPU 来做 AI 的原因,因为它速度快,体验会好很多,四倍的速度就是差很多的,所以谷歌发布的模型对于相关落地不是很友好。"

从论文到模型全部开源,MoGA 已经有了业务落地和收益

当我们问到为何将面向应用的 MoGA 也开源时,张勃表示:" 我们相信自己会持续输出成果,所以我们不会因为一个 MoGA 开源就怎么样,这一点我们有信心。我们要做的是一个品牌和技术的影响力。"

而初祥祥也表示,MoGA 这项成果也很方便同行进行研究。

" 相比谷歌动不动 3000 个 TPU 天的训练量,MoGA 的总算力只有 20GPU 天,方便研究者复现,甚至学生都可以做做实验。"

初祥祥还告诉我们:"(开源)也是鼓励更多的对 NAS 感兴趣的研究人员共同探讨,就像我们在解决每一次的迭代涉及到激活模型和更新参数,从而产生的次序问题时,我们采用的是‘只累积梯度,不更新参数’,这是一个核心的方法,有的同行发邮件来询问这个问题,其实我们论文已经写得很清楚了,但是可能是没有注意到。我们欢迎同行来进行探讨。"

初祥祥和张勃还透露,根据团队发的调查问卷显示,已经有洛桑理工、佐治亚理工等国外院校和西交大、北理、北航等国内院校,以及一些企业都对预训练模型进行了下载和调研,还有一些直接发来邮件进行探讨。

而谈到 MoGA 这种面向应用的成果目前落地的情况时,初祥祥和张勃表示:正在进行,并且已经有了收益

MoGA 已经在高通 845 上进行了实验,在视觉任务上,可能一个团队一年半才能提升有限的准确率,用了 MoGA 就直接有明显的提升。

而且初祥祥表示:" 其实这种是越往上越难提高,而我们是在他们的基础上提升的,所以其实我们有困难的,但是我们还是有了明显的提高。"

张勃补充道:" 其实我们小米内部已经有业务证明了,直接用 FairNAS 去替换主干网,也直接产生了收益。IoT 方面,也在落地当中。"

小米 AutoML 团队也透露,论文发布后收到了来自全球学界和业内的交流邮件,包括华为、ARM、TCL、Keep 在内的公司对 FairNAS 和 MoGA 都很感兴趣,表达了加强合作交流的愿望。

团队方法论:选择做什么比做什么本身更重要

87 年出生的初祥祥毕业于清华电机系,师从于歆杰教授,从说服上级成立 AutoML 团队,到带领团队持续输出对标谷歌的成果,一共用了 10 个月的时间。

在如此短的时间内,完成从成立团队到密集输出成果,初祥祥也有自己的一套方法论。

"团队人数不多,所以方向不能错,这是决定生死的一个问题," 初祥祥解释说," 要去关注如何发挥最大的效率,这也要一个长期的规划。"

" 现在基本上就是我来制定我们的整体路线,当然这其实有很大的风险,就是个人的偏置如果错了,影响是很大的。"

张勃也补充:" 团队的 leader 要有一个非常清晰的目标,比如说我们能达到什么,目前达不到什么,我们可能踮踮脚尖能达到什么,以后能达到什么,就是需要一个非常清晰的判断。"

最后,小米的 AutoML 团队也正在招募招募深度学习算法 / 软件工程师,感兴趣的读者可以点击阅读原文进一步了解。

最后的最后,也再补充三部曲论文合集链接,你也可以在大数据文摘后台回复 "NAS" 下载论文包,一次看过瘾

Chu et al., Multi-Objective Reinforced Evolution in Mobile NeuralArchitecture Search

https://arxiv.org/abs/1901.01074

Chu et al., Fast, Accurate and Lightweight Super-Resolution with Neural Architecture Search

https://arxiv.org/abs/1901.07261

Chu et al., FairNAS: Rethinking Evaluation Fairness of Weight Sharing Neural Architecture Search

https://arxiv.org/abs/1907.01845

Chu et al., MoGA: Searching Beyond MobileNetV3

https://arxiv.org/abs/1908.01314

Chu et al., ScarletNAS: Bridging the Gap Between Scalability and Fairness in Neural Architecture Search

https://arxiv.org/abs/1908.06022

实习 / 全职编辑记者招聘 ing

加入我们,亲身体验一家专业科技媒体采写的每个细节,在最有前景的行业,和一群遍布全球最优秀的人一起成长。坐标北京 · 清华东门,在大数据文摘主页对话页回复" 招聘 "了解详情。简历请直接发送至 zz@bigdatadigest.cn

点「在看」的人都变好看了

以上内容由"大数据文摘"上传发布 查看原文

觉得文章不错,微信扫描分享好友

扫码分享