超越Mask-RCNN：这是谷歌大脑的AI，自己写的目标检测模型

方栗子发自凹非寺
量子位出品 | 公众号 qbitai
这是一只ai生出的小ai。
谷歌大脑的quoc le团队，用神经网络架构搜索 (nas) ，发现了一个目标检测模型。长这样：
它的准确率和速度都超过了大前辈mask-rcnn；也超过了另外两只行业精英：fpn和ssd。
模型叫做nas-fpn。大佬quoc le说，它的长相完全在想象之外，十分前卫：
△ 喜讯发布一日，已收获600颗心
ai的脑洞果然和人类不一样。对比一下，目标检测界的传统方法fpn (特征金字塔网络) 长这样：
谷歌大脑说，虽然网络架构搜索 (nas) 并不算新颖，但他们用的搜索空间与众不同。
怎么搜出来？
在nas-fpn出现之前，地球上最强大的目标检测模型，架构都是人类手动设计的。
△ 这是mask-rcnn的成果
nas是一种自动调参的方法，调的不是训练超参数，是网络架构超参数：比如网络多少层、每层都是什么算子、卷积层里的过滤器大小等等。
它可以在许多许多不同的架构里，快速找到性能最好的那一个。
所以，要把目标检测的常用架构fpn (特征金字塔网络) 和nas结合起来，发现那只最厉害的ai。
但问题是搜索空间太大，特征横跨许多不同的尺度。
于是，团队基于retinanet框架，设计了一个新的搜索空间：
这里，一个fpn是由许多的“合并单元 (merging cells) ”组成的。
是要把输入的不同尺度/分辨率的特征层，合并到retinanet的表征里去。
具体怎样合并？这是由一个rnn控制器来决定的，经过四个步骤：
一是，从输入里任选一个特征层；
二是，从输入里再选一个特征层；
三是，选择输出的特征分辨率；
四是，选择一种二进制运算，把两个特征层 (用上一步选定的分辨率) 合并起来。
第四步有两种运算可选，一种是加和 (sum) ，一种是全局池化 (global pooling) 。两个都是简单、高效的运算，不会附加任何带训练的参数。
一个cell就这样合并出来了，但这只是中间结果。把它加到刚才的输入列表里，和其他特征层排在一起。
然后，就可以重新选两个特征层，重复上面的步骤一、二、四，保持分辨率不变。
(团队说，如果要避免选到相同分辨率的两个特征层，就不要用步长8。2和4是比较合适的步长。)
就这样，不停地生成新的cell。
停止搜索的时候，最后生成的5个cell，会组成“被选中的fpn”出道。
那么问题来了，搜索什么时候能停？
不是非要全部搜索完，随时都可以退出。反正分辨率是不变的，fpn是可以随意扩展的。
团队设定了early exit (提前退出) 机制，用来权衡速度和准确率。
最终发布nas-fpn的，是ai跑了8,000步之后，选取最末5个cell生成的网络。回顾一下：
从原始fpn (下图a) 开始，它走过的路大概是这样的：
跑得越久，生成的网络就越蜿蜒。
模型怎么样？
nas-fpn可以依托于各种骨架：mobilenet，resnet，amoebanet……
团队选择的是amoebanet骨架。
那么，用coco test-dev数据集，和那些强大的前辈比一比高清大图检测效果。
比赛结果发布：
nas-fpn拿到了48.3的ap分，超过了mask-rcnn，并且用时更短 (右边第二列是时间) 。
另外一场比赛，是移动检测 (320x320) ，nas-fpn的轻量版本，跑在mobilenet2骨架上：
超过了厉害的前辈ssd轻量版，虽然，还是没有赶上yolov3。
△ yolov3过往成果展
不过，打败mask-rcnn已经是值得庆祝的成就了。
one more thing
nas既然如此高能，应该已经搜索过很多东西了吧？
谷歌大脑的另一位成员david ha列出了7种：
1) 基于cnn的图像分类器，2) rnn，3) 激活函数，4) sgd优化器，5) 数据扩增，6)transformer，7) 目标检测。
并发射了直击灵魂的提问：下一个被搜的会是什么？
他的同事摘得了最佳答案：nas啊。
△ nas
论文传送门：
.07392.pdf
— 完 —
诚挚招聘
量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(qbitai)对话界面，回复“招聘”两个字。
量子位 qbitai · 头条号签约作者
追踪ai技术和产品新动态

超越Mask-RCNN：这是谷歌大脑的AI，自己写的目标检测模型

推荐信息