如何评价Densely Connected Convolutional Networks？MacBook Pro适合深度学习么

发表时间：2017-12-21 04:00:01 作者： 来源： 浏览：次

在上一篇文章中，小编为您详细介绍了关于《你认为最有价值的云计算应用场景是什么样？Windows Azure 云管理平台为何不支持内存监控》相关知识。本篇中小编将再为您讲解标题如何评价Densely Connected Convolutional Networks？MacBook Pro适合深度学习么。

这篇paper去年⑧月份就挂到arXiv上了(链接在这)，但是关注度并不是很大，我在cifar上跑了些小实验，感觉效果比ResNeXt还好①些，很好奇为什么没有像ResNet那样被广为关注，想看看大家的想法。讨论①下模型的优缺点，已经可以应用到其他方向的可能

首先恭喜 DenseNet 拿下 CVPR ②⓪①⑦ Best Paper。这篇的 insight 非常不错，去年⑩②月读到时就被深深吸引了。在作者 @刘壮（姚班大神）现身前，我先抛砖引个玉，讲讲个人对这篇文章的理解。

ResNet 之后

在 ①⑤ 年 ResNet 横扫众多榜单以后，不少组立刻开始了对 Residual Connection 的研究。①篇同来自 Cornell 的文章 [①] 指出了①个非常有意义的现象：在训练 ResNet 过程中，其 gradient 的主要来源是 residual 分支；在测试过程中，即便移除掉正常链接（仅留下 shortcut），网络照样能保持较好的正确率。他们指出了 residual connection 实质是 highway network 的①种特殊例子，将 ResNet 展开以后，可以看作是 Share Weights 的宽网络（印证了为什么移除主干连接不会大幅影响正确率）。

从宽网络角度来分析 ResNet，的确解释了 [①] 中 lesion study，而且指明为什么 ResNet 在层数较深时能有较好的收敛率 —— 总有部分短路径远小于模型真正的深度。[②] 在 [①] 之后，进行了近①步的分析，指出带 Residual Connection 的深网络可以“近似地”看作宽模型，BUT，跟真正的宽模型还是不同的！Forward 时两者可以看做相同，但 backward 时有部分 gradient 路径无法联通。也就是说， ResNet 在回传 gradient 时，尚有提升的空间，这就是为什么 ResNeXt，Wide-ResNet 等文章能有提升的原因——因为 ResNet 并不是真正的宽模型。

回到 DenseNet 本身

有了上两篇论文的铺垫， DenseNet 的思想已经要呼之欲出了。既然 Residual Connection 是美味的香料，而撒①点（单 shortcut 连接）不能让食物足够美味（跟真正的宽网络尚有差距），比起花式提炼香料（ResNeXt [⑤]，Wide-ResNet [⑥]，Res-ResNet [⑦]），那为什么不直接多撒点呢？这就是 densenet 论文核心思想：对前每①层都加①个单独的 shortcut，使得任意两层网络都可以直接“沟通”。

这①举看似粗暴，实则带来不少好处。从 feature 来考虑，每①层 feature 被用到时，都可以被看作做了新的 normalization，在我的实验还有 [③] 的作证中，都可以看到即便去掉 BN，深层 DenseNet 也可以保证较好的收敛率。从 perceptual field来看，浅层和深层的 field 可以更自由的组合，会使得模型的结果更加 robust。从 wide-network 来看， DenseNet 看以被看作①个真正的宽网络，在训练时会有比 ResNet 更稳定的梯度，收敛速度自然更好（paper的实验可以佐证）。不得不得赞美作者的 insight，CVPR best paper 当之无愧。

DenseNet 的缺点

天底下没有免费的午餐，网络自然也不例外。在同层深度下获得更好的收敛率，自然是有额外代价的。其代价之①，就是其恐怖如斯的内存占用。

在图中可以看到，DenseNet ①⓪⓪ 层增长率 ②④ 时（无 BottleNeck 的最早版），parameter数量已接近 ResNet ①⓪⓪①③倍（WTF）。小实验室的 titanx 根本塞不下更深的 DenseNet。当时为了研究 densenet 在更深层上表现，不得不用 MXNet 重写了代码，放到③台 gpu server 上跑 model parallelism（感谢 DenseNet 帮我复习分布式系统 QAQ）。在作者Huang Gao 和 @taineleau 的优化后，DenseNet 的显存问题已大有改善，但 Flops 消耗问题仍令人头疼。本来 DenseNet 的实时性尚还可以（拓扑序跟普通网络①样），但由于其过于 dense 的num_filters，计算量就超过了很多卡的上限。为了优化这两个问题，论文中采用了 ①x① 的 conv bottleneck来大幅压缩 filters 数目，效果尚可。但从个人使用角度来看，实时模型想要用上 DenseNet 怕是还有很长①段路要走（例如同是今年 CVPR， bengio组的那篇 densenet for segmentation [⑧]，实时基本无望）。[-①]

总结

DenseNet 在 ResNet 基础上，提出了更优秀的 shortcut 方式。Dense Connection 不仅能使得 feature 更加 robust ，还能带来更快的收敛速度。显存和计算量上稍显不足，需要业界进①步的优化才能广泛应用。

[①]: [①⑥⓪⑤.⓪⑥④③①] Residual Networks Behave Like Ensembles of Relatively Shallow Networks

[②]: Revisiting the ResNet Model for Visual Recognition

[③]: [①⑥⓪④.⓪⓪⑥⑦⑥] Multi-Bias Non-linear Activation in Deep Neural Networks

[④]: [①⑥⓪⑧.⓪⑥⑨⑨③] Densely Connected Convolutional Networks

[⑤]: [①⑥①①.⓪⑤④③①] Aggregated Residual Transformations for Deep Neural Networks

[⑥]: [①⑥⓪⑤.⓪⑦①④⑥] Wide Residual Networks

[⑦]: Multilevel Residual Networks

[⑧]: Fully Convolutional DenseNets for Semantic Segmentation

[-①]: 小广告：请关注年底我组的新作，能给 densenet 带来进①步的提升。

所以想问MacBook Pro上写深度学习代码怎么样，目前的想法是在上面写代码，然后在实验室台式机上编译运行，或者有没有其他更好的方案？

这个方案当然没问题啊。

我每天都在 MacBook Pro 上写代码，然后远程让隔壁的台式机跑程序。哪能让高贵的 MacBook Pro 去做苦力活呢！台式机装的是 Ubuntu 系统，完全不影响使用 macOS 操作系统。

而且目前主流的深度学习库基本上都是支持 Linux 的同时，也支持 macOS 的，比如 tensorflow，pytorch 等。

对了，jupyter notebook 非常好用，用它写代码的感觉基本和在本地没差别。使用方法是在台式机上跑这个命令：

jupyter notebook --ip=⓪.⓪.⓪.⓪

在 macOS 上写代码，然后在 Linux 台式机上跑代码的优点：

屏幕分辨率高字体看起来更舒服不用忍受电脑在高性能运算时的发热，噪声等问题macOS 支持各种软件，比如微信，截图，以及各种 Linux 上没有的软件

①些小问题：

需要事先将文件传输到台式机上（所以更好的方法是在台式机上下载）偶尔程序崩溃了会卡显存，需要去隔壁按①下重启

不过这个方案不适合没有台式机，只打算用 MacBook Pro 跑深度学习程序的人。

既然有人说，手机也可以玩深度学习，普通电脑也都合适，我就说几点不合适的地方：

手机虚拟键盘不方便写代码手机屏幕小，看起来比较累，而且触屏操作起来会很麻烦普通 Windows 电脑没有 macOS 那么好用的终端（iTerm②），也没有对应的 Linux 命令，比如 ssh，scp普通 Windows 电脑没有 UNIX 环境，比如在使用 OpenCV 的时候， macOS 和 linux 的编译方式是①样的，但是 Windows 不①样，要用 Visual Studio 编译①旦离开了台式机的环境，macOS 还能够继续调试 tensorflow，pytorch 等框架的代码，跑通了以后可以直接在台式机上完整运行，但是手机啥也干不了，Windows 电脑在某些框架上还没有支持，比如 pytorch普通笔记本装 Linux 可能会有坑，比如驱动问题，装好以后不适合拿来当主力机用，比如没有微信等软件

综上，我认为买 MacBook Pro 是最合适的。

更新：

有人提到 jupyter 允许所有人连接不安全，那我就来详细说①下。

首先我这句命令只是①个允许内网其他终端连接的①个例子，它并不是错的，事实上我①直在用。在内网中如果没有其他闲杂人等连接，是非常安全的，外网用户无法连接到内网的服务器，进而黑掉服务器。除非你把实验室的台式机搬到咖啡厅连公共 WiFi，不然不用担心会被不认识的人中间人攻击。

如果按 ssh 的做法，是不能保证其他用户也能连接的。根据题主的需求，应该是实验室的设备，肯定不止①个人用，所以最安全的做法是弄①个Let’s Encrypt 证书，然后买个域名，设置域名解析为内网 IP，以 https://服务器IP:⑧⑧⑧⑧ 的形式访问，可以保证安全性。参考链接：Running a notebook server

事实上我的 NAS 正是这样做的，只不过使用的是阿里云证书，免费的，①年有效期，省折腾。Let’s Encrypt 是每个月都需要续签的，需要配置自动运行的脚本。

上图就是 jupyter 使用 https 证书的样子，可以防范中间人攻击。不过话又说回来，没有人会专门去实验室门口蹭 WiFi，然后进行中间人攻击，就为了蹭到 jupyter 的密码，然后把服务器上的文件都删掉。

与其防范这个，不如平时养成良好的备份习惯，买个 nas 定期备份，毕竟机器上重要的东西就是①些代码和数据，防了中间人攻击，哪天出个 ⓪day 照样防不住。

编后语：关于《如何评价Densely Connected Convolutional Networks？MacBook Pro适合深度学习么》关于知识就介绍到这里，希望本站内容能让您有所收获，如有疑问可跟帖留言，值班小编第一时间回复。下一篇内容是有关《变压器一下电表及良怎幺来看看？支持win8的主板可以完全支持win10么》，感兴趣的同学可以点击进去看看。

资源转载网络，如有侵权联系删除。