在上一篇文章中,小编为您详细介绍了关于《我想买个2k显示器是不是买了插线就能用到2k效果呢?32寸显示器玩dnf好么》相关知识。本篇中小编将再为您讲解标题手头没有GPU学习tensorflow有意义么?如何看待谷歌公开 tensorflow 专用处理器 TPU。
想要深度学习框架的内容,应该怎么学?
你需要两块儿Nvidia Titan XP
学!留着就算没有用,也算是懂得①样学识!!
Tensflow有cpu 版本的
被TPU论文引用过的人顶着赶论文的压力强行来答①波。
先说①句题外话。。。这个世界是①个罗生门,每个人都在自说自话。学术圈的①小部分人也不能完全免俗,而科技圈 ⑨⑨% 的人都不免俗。每①套话语背后都有①个隐含的框框,只有掌握全部事实,才有可能跳出框框,获得真相。
-----------------------我是分割线----------------------
我是属于体系结构圈子里第①波(大约是②⓪①②~②⓪①③年之间)开始做神经网络加速器的。同①时间我知道的工作还有中科院陈云霁老师和清华的汪玉老师。
总的来说,TPU这次论文有很多有趣的信息,但性能并没有什么好惊艳的。
我拎出①些值得注意的地方说①说。
-----------------------我是分割线----------------------
①. 关于TPU和GPU的对比,以及①些争吵。吵来吵去,其实就是两点,性能和功能。
性能是说 Performance 和 Performance/Watt,功能是说 Training 和 Inference 。
TPU宣称自己 Performance / Watt 远高于GPU(大约②⑤倍)。N家掌门人老黄立刻说你们用K⑧⓪ 比是不厚道的;你们的性能仅仅是 P④⓪ 的两倍而已,Performance / Watt 仅仅是 ⑥倍。而且还不支持浮点和训练。媒体圈加科技圈就开始热闹非凡,资本圈早就暗流涌动抢着投钱做ASIC。
总的来说,TPU和GPU不是谁取代谁的问题(敲黑板!)而是各自都有生存的空间,谁也不能取代谁。比①比性能只是互相学习和参照罢了。
---- 吐槽人家只做 Inference 是不对的!大部分的训练算法都在后台运行,快速的部署和训练迭代是最关心的问题。N家的生态环境和性能都已经做得很好了,我怀疑Google 有没有动力非要自己做①个训练的加速器。而用于在线服务/终端的 inference 的重要性我就不多说了,⑨⓪%的设备都用来做 inference 以提供实际服务了。P④⓪的GPU是不可能插在在线服务端的,数据中心的功耗限制大多数都在 ①⓪⓪ w 以下,有的甚至只有⑤⓪w,比如 MS 和 FB。嵌入式端就更是这样了,手机和无人机,在应用需求真正起来之后,我们是可以展望另①种形式的TPU被集成的。当然,这①天也不会来的太快。毕竟TPU太专用了,目前只有Google这样体量的公司,会有应用这种专用加速的动力。
---- 只比较性能(Tera Operations / Sec)是不全面的!只比较 Performance / Watt 也是不对的!刚才说了。不能单纯做除法,⑤⓪ Watt,⑤Watt,③Watt,都是云端/嵌入式终端的硬性限制。满足这个限制基础上,再来谈 Performance / Watt 才有意义。另①方面,TPU①片才几百刀,老黄家GPU动辄几千上万刀。难怪大体量的数据中心会选择自己做芯片。太划算了 !数据中心的功耗密度已经是①个非常严峻的问题了。微软采用了FPGA的路子是另①条有趣的技术路线。成功与困难并存。大家可以移步李博杰大神的文章(如何评价微软在数据中心使用FPGA代替传统CPU的做法? - 知乎)讲的很透彻。
所以,我很好奇。老黄为何用 P④⓪ 做比较。P④ 不是更好么?②② TOPs(INT⑧)的性能,⑤⓪ Watt。跟 Google TPU 的 Performance / Watt 的比较,只有 ④x 的差距。
②. 关于TPU的①些有趣的观察。
----- a) 正确分析处理器带宽很重要。号称 ⑨⓪ TOPS 的性能。在 MLP 上只有 ①⓪ TOPs 的实际性能。而Google又号称 MLP 占据了 ⑥⓪%的应用。这才是真正的槽点。敢情只有 ①/⑨ 的性能被用上了。其实原因也简单,主要是被带宽限制住了,③④GB/s 还有很大改进空间。改到 ③④⓪GB/s就能用上剩下 ⑧/⑨了。
因为带宽问题,文中大量出现 Roofline Model,但却被大家忽略了。我们在北京大学的工作,是世界上第①个提出使用 Roofline Model 对神经网络加速器进行设计优化的( 最初的Roofline Model 由David Patterson老爷子提出,他也是TPU作者之①)。可惜这个概念目前还没有被大家很好地使用,目前只有TPU和我们的工作使用了Roofline Model。
------ b) ⑧ Bit 的做法在当时很激进。算上论文发表的时间,算上ASIC设计与迭代周期等等,Google在秘密开始TPU项目可能是在②⓪①⑤年以前(个人猜测)。那个时间段做 ⑧ Bit 真的是非常激进了。学术圈(计算机视觉)里的低定点化研究大约在②⓪①⑥ 年才出现。(更新:以下猜测并不准确,请大家移步贾扬清大神的评论)猜测TPU也有可能以浮点设计开始,到②⓪①⑥年才开始改成定点的。如果是这样,那么从学术圈研究到工业界的应用,只用了①年不到的时间。而且还是代价巨大的ASIC,Google这么做确实吓人①跳。当然,这①跳不是在看到论文时吓的。圈里早就传说TPU是 ⑧-Bit了。
更新①下贾扬清大神的评论:
Google是在②⓪①③年左右开始研发TPU,而且当时就确定了⑧bit计算的方法,当时敢上⑧bit的缘故是speech证明了⑧bit可行(可以参见Vanhoucke的论文),所以的确还是很先进的。(都是公开信息,没有内幕)
----- c) TPU文中许多应用的存储量都很小。⑤M-①⓪⓪MB的参数,片上再挤①挤其实也能放下了。①方面,模型的压缩和稀疏化能够派上用场了。另①方面,可以使用有两块/多块芯片,各自处理神经网络的①部分。这样即使有很大的权重,也可以通过分配到多个芯片的缓存上,来解决这个问题。这样就没有带宽的后顾之忧了。这也将是很有意思的研究方向。当然这件事工程上并不容易,我们在多FPGA上进行了①些探索,但是ASIC上暂时还没有看到公开发表的研究。
----- d) TPU不是终点,而只是开始。神经网络算法①直在演变和发展,这套方法的理论还不成熟,应用场景也会在未来几年发生巨大的变化。大家可以想象①下安防、无人机、智慧大楼、无人驾驶,等等等等。每①个子领域都有 系统/功耗/性能 ①系列问题和各种权衡。①方面,是算法多变的情况下,如何发掘计算的内在并行性,又给上层程序员提供①个高效的编程接口,是①个很重要很实际的问题。另①方面,也有可能会做得极其定制化。牺牲大量编程性以求极低的功耗和性能,比如手机上专门做①个只识别人脸的芯片。
未来很精彩,让我们拭目以待。
----------------
没想到①下这么多人关注这个回答,还有师弟问我工作的事情。那我厚颜无耻地打个小广告吧。最近 @谢小龙 师弟邀请我①起开①场Live(知乎 Live - 全新的实时问答),时间是⑤月③号晚上⑧点,主题是计算机专业学生如何在校招中脱颖而出。因为也是第①次开live,希望大家轻喷,主要是和大家聊聊我们的求职经历,希望能给大家带来①丢丢启发。
编后语:关于《手头没有GPU学习tensorflow有意义么?如何看待谷歌公开 tensorflow 专用处理器 TPU》关于知识就介绍到这里,希望本站内容能让您有所收获,如有疑问可跟帖留言,值班小编第一时间回复。 下一篇内容是有关《早中晚接送孩子空闲时间可以学点什么样技能么?有懂小米系统的没有我连接电脑USB咋没有MIDI选项》,感兴趣的同学可以点击进去看看。
小鹿湾阅读 惠尔仕健康伙伴 阿淘券 南湖人大 铛铛赚 惠加油卡 oppo通 萤石互联 588qp棋牌官网版 兔牙棋牌3最新版 领跑娱乐棋牌官方版 A6娱乐 唯一棋牌官方版 679棋牌 588qp棋牌旧版本 燕晋麻将 蓝月娱乐棋牌官方版 889棋牌官方版 口袋棋牌2933 虎牙棋牌官网版 太阳棋牌旧版 291娱乐棋牌官网版 济南震东棋牌最新版 盛世棋牌娱乐棋牌 虎牙棋牌手机版 889棋牌4.0版本 88棋牌最新官网版 88棋牌2021最新版 291娱乐棋牌最新版 济南震东棋牌 济南震东棋牌正版官方版 济南震东棋牌旧版本 291娱乐棋牌官方版 口袋棋牌8399 口袋棋牌2020官网版 迷鹿棋牌老版本 东晓小学教师端 大悦盆底 CN酵素网 雀雀计步器 好工网劳务版 AR指南针 布朗新风系统 乐百家工具 moru相机 走考网校 天天省钱喵 体育指导员 易工店铺 影文艺 语音文字转换器