商汤CEO徐立：包容、长尾、开放，AI创新的三个策源力

发表时间：2020-07-15 14:32:13 作者：编辑部 来源：游戏王国 浏览：次

在上一篇文章中，小编为您详细介绍了关于《腾讯安全和安徽征信达成战略合作，共同探索数据技术应用场景》相关知识。本篇中小编将再为您讲解标题商汤CEO徐立：包容、长尾、开放，AI创新的三个策源力。

原标题：商汤CEO徐立：包容、长尾、开放，AI创新的三个策源力

“没有任何技术是100%准确的，对技术创新不能求全责备，只有包容的态度，技术才能真正的发展。”

“当效率真正提升时，那些并不是最头部的应用也必须得逐个解决，这是人工智能深入行业最关键的。”

“人工智能细分场景和细分应用非常多，我们一定要去拥抱一个开放共创的生态，我们要的不是一棵独木，而是一片森林。”

上周，盛况空前的2020年世界人工智能大会在上海完美上演，商汤科技从深度、广度和厚度层面全方位支持大会成功举办，演绎大爱（AI）无疆的“三部曲”。7月10日，商汤科技联合创始人、首席执行官徐立作了题为“人工智能创新策源力”的主题演讲。

徐立认为，包容、长尾应用和开放，是人工智能创新的三个策源力。而这背后的根源，是对人工智能认知的提升。这也延续了他在去年世界人工智能大会中关于“人工智能发展观”的话题。（详情可点击文末文章图文超链《人工智能发展观——传承与创新》阅读）

▎技术试错创造增量价值

大家好，欢迎来到“大爱无疆·致远”商汤人工智能企业论坛，非常有幸在今年这样的情况下，依然能够继续和大家在线上及线下一起讨论人工智能，讨论人工智能的创新策源。

首先，我们讨论一些技术以外的东西，上海要打造人工智能发展高地，要做人工智能的创新策源地，那么究竟有哪些要素是真正推动创新策源的创新力？我今天的演讲题目是“人工智能创新策源力”。

奔跑的马

创新很多都来源于艺术。下面这幅画是疫情期间，我家小朋友画的一幅马。当看到这幅画的时候，我就立刻觉得有点不对。实际上没有一匹马是真实像这样四蹄腾空奔跑的，一般只有兔子会这么跑，虽然有些马也叫“赤兔”，但说的并不是这个意思。

我立马指出这个问题说马奔跑的姿势不对。可是小朋友说，不是，马就是这么奔跑的。所以，出于好奇我就去网上搜索奔跑的马，然后就搜到了一幅名画，《昭陵六骏图》。

下面这匹也是四蹄腾空的马，是唐太宗的六匹战马之一。事实上，以四蹄腾空这种形式画奔马的，历史上大有人在，著名的画家郎世宁，还有各式各样的中西方油画，不少都以这种方式来展现奔跑。

为什么当时会有这样画法？实际上这是大家对奔跑的马认知程度不够所造成的。

这个问题也不是我第一个研究的，1872年，欧洲摄影家Muybridge就提出了疑问，所以他用摄影技术连续拍摄了12帧奔跑的马，第一次向世人揭示了马是怎么跑的。马奔跑过程中，并没有一个四蹄腾空的状态，也就是说之前的人都画错了。

但是，这些错误的探讨、错误的绘画，并没有给艺术带来局限。反倒是说像我们的昭陵六骏，从墙上的浮雕、石碑，再到最后的画卷，是真正意义上推动了写实绘画风格。直到今天，中国画马第一人许勇的马还是对昭陵六骏写实画风的传承。错误了没有关系，错误的概念在这个过程中得到理解，并且正确的部分被延伸下来，就会对后世产生影响。

我想说这种探索，就像胡适所讲：怕什么真理无穷，进一寸有一寸的欢喜。

创新不能求全责备

每往前迈一步，就相当于有更多东西能够沉淀下来。人工智能，其实面临着一个与画马相似的过程。

2011年，当我们在语音识别领域取得巨大突破的时候，行业里很多人说人工智能深度学习在语音中的成功只是一个巧合。

2013年，当人工智能真的在图像领域大放异彩时，业界讨论最多的却是人工智能、深度学习是不是过热了。

伴随着质疑声，我们看下谷歌趋势（Google Trends）对于深度学习热词的搜索，下面图里的曲线代表了业界对人工智能的热衷程度。2013年时还只是个小高峰，而在这之后，深度学习人工智能才正式意义上进入了大规模的爆发，并且影响到各行各业，这都是在质疑声中发生的事。

同样，行业中一个标杆性的案例——人脸识别，也一路受到类似质疑。作为解锁和认证的一个手段，大家会讨论人脸识别的准确率是不是足够：人脸识别很容易就误识，长得很像的弟弟能不能解锁自己的手机……我相信这些质疑，大家都不绝于耳。

我们要做技术，推动创新，其实对它的态度不能是求全责备，没有一个技术是100%准确的。我们只有以一个包容的态度去认可技术的时候，它才有真正的发展。

以商汤为例，我们今天已赋能4.5亿台手机的人脸解锁功能，覆盖几乎中国所有手机品牌，日均人脸解锁次数达到300亿次，大家已经默认人脸能代替密码；在酒店大堂等很多需要认证的地方，商汤总共有20多万台智能设备在线为大家提供服务，每年酒店入住超过3亿人次，我相信，很多人都已经习以为常了，在各式各样的试错发展过程中，我们发现这些应用已经被普罗大众所接受。

当人脸识别精度不再成为被质疑的点，去年我们又迎来各式各样新的讨论。包括：用3D人脸面具去仿冒一个人来解锁，还有用视频生成的方式是不是真能够忽悠机器解锁。人工智能真假鉴别能力的问题又引起大家一番讨论，而就在这样的质疑当中，更多城市级别的应用发生了。

比如我们的地铁刷脸乘车方案，在郑州、西安、哈尔滨等多个城市，已经大规模推出了刷脸支付乘车，现在的技术已能够解决城市级别的应用。

可以看到，在技术试错的过程中，每一步的试错都会带来增量的价值，我认为这是驱动创新的一个重要因素。

▎长尾应用完善价值闭环

简单的图像，复杂的世界

接下来，我们看另外一个例子。

这是商汤办公楼下的一张照片，行人熙熙攘攘。如果用行人检测算法，我们能够把图像中所有行人都有效标识出来，好像已经对这张图像进行了充分的解读。

但是，如果要真正对图像中所有事情都进行分析，我们发现世界远远要比这个复杂——所有的物体、行人、交通信号灯、指示牌组合在了一起。这样一张简单的图片、日常生活中的普通图片，都会有数百种单一的物体和场景的识别，更不要说理解这些物体、场景之间的关系。

简单来说，我们要判断一件事情，比如判断一个人在骑摩托车，我们需要检测人、摩托车和地面；如果是人在停摩托车，我们需要检测人在摩托车边上，在马路边上。如果一只鸽子在天空中飞，那它是信鸽；鸽子在盘子里，可能就是一只乳鸽。

所有这些关系是要通过把物体和物体之间关联起来。著名工业设计师凯瑞姆讲过：一个人平均每天要接触到600多个物体。而现代汉语辞典中，总共有1万多个名词的物体，种类非常多。如果我们只考虑以上例子中那种三个要素的结合，也要处理3500多万种可能性，也就是说对于一张现实生活场景中非常普通、简单的照片，也需要分析千万级别可能性，才能对它有一个基础的解读。

举个例子，下面这张照片中，我们能够用行人检测算法把行人都检测出来。但是，如果作为一个智能城市的检测案例判断行人有没有翻越栏杆，我们就需要检测关系，人的持续动作、栏杆、地面，才能真正识别出来这是一个攀爬的动作。所以，这样一个简单的应用，牵扯到的复杂度就已经非常高。

事实上，我们现在在城市管理的各个细分场景中，推出了很多类似这样的场景理解、识别的算法模块，它能够解决我们日常生活中各式各样的问题，深入到城市的每一个毛细血管中。

人工智能深入行业最关键的点是什么？

下面再举两个例子。

共享单车前几年非常火，但也随之带来了单车停放和管理的问题。2017年，共享单车初露端倪时，有人曾估计会带来接近3.5万个整理单车的额外工作岗位，假如共享单车呈指数级提升，可能会有数以十万计的工作人员需要每天去处理这些共享单车的停放问题，包括停放位置是不是违停，是不是倾倒等。

其实，我们用上面所介绍的方法，就能够解决共享单车的停放监管问题，能够识别它的违停，可以检测车和车之间的关系，车和停放区域的关系，车是不是停成整齐的一条线等。

再看另外一个比较有意思的例子，这个可能是二三线城市会遇到的问题，粪车偷排。很多粪车找到一个井盖，没有停到固定的位置上就进行偷排，对环境污染非常严重。当我们要解决这个问题时，需要解决粪车和井盖的检测、井盖异常的检测等。

可是，我一直问我们同事一个问题，车停在那里，怎么知道它到底是抽还是排呢？我们根本看不到管子里面的情况。但我的同事跟我解释，其实根本不需要，只要是有井盖异常，并且粪车在那停的时间过长，在不该停车的地方停了，就是一个违规报警——把时间维度放到这个问题里。

我们的算法可以把时间、地点、人物关系串联，使我们真正能够解决这些城市管理中长尾的、细小的应用。

接下来看一下商汤在上海长宁区做的一网统管的案例。

一个是关于共享单车的，另一个是乱扔垃圾的，大家看一下视频。

第一个案例中，记者去模拟了一次共享单车的乱停放，仅12分钟后这个违规行为就从发现到被志愿者解决了。乱扔垃圾的案例中，借助一网统管，志愿者们也只用9分多钟就完成了从发现到处置的整个过程，当然我们也可以看到上海市民素质还是非常高的，在人工智能发挥作用之前，就有人工已经先发挥了作用。

各式各样的细小应用，也随着疫情的延伸出现了新的变化。

看一下西班牙，疫情期间政府限制大家出行，但因为有时宠物需要出门，所以只允许遛狗可以上街。因此，当地出现了各种各样的花式遛狗，有溜玩具的、遛行李箱的，甚至借邻居的狗去溜的，所以这个过程中就需要城市治理有一个“狗只”识别功能。目前，我们的系统中有一个大型犬只是否系狗绳的识别，并且能够判断是不是狗。

右边的图是我们进行识别之后的，可以判断第一个是溜螃蟹，并不是狗，其他三张图片中的狗都被正确识别出来。事实上，算法还能解决识别不同类型的犬只。城市综合治理接下来要解决狗只上牌的问题，我相信在这方面算法会起到很大的作用。

当然算法也不是无所不能的，也会有一些特殊的案例：这个看上去非常像狗的动物，其实是人假扮的。可能在这种情况下，我们对算法还需要有一些容忍度。

以上讲到的这些应用在日常生活中都是比较小众的，垃圾抛洒、粪车偷排、违停、遛狗。但是，长尾的这些应用才是真正完善价值闭环的核心。

什么叫长尾应用？像人脸识别、行人识别这些大家关注度高、应用频率非常高的我们叫头部应用，就像下面这只恐龙的头部。但是，还有刚才提到的那些应用频次比较低的，像恐龙的尾巴，就叫长尾应用。我们认为，最核心的部分一定是要把长尾应用的性能进行突破，才真正形成了价值闭环。

我们说人工智能可以代替我们做很多工作，很多人觉得人工智能如果能够控制小区安全出入，它就能代替保安了。但是，它只是代替了保安的一个功能。保安可以做很多事，可以巡视、可以代收快递，如果只取代一个出入管理的功能，人工智能是永远没法胜任一个完整的保安工作的。

当效率真正提升时，那些并不是最头部的应用，也必须得逐个解决，这才是人工智能深入到行业最关键的一点，长尾的应用才能够完善价值闭环。

▎开放共创生态

人工智能生成内容的那一天会来得非常快

下面我们来看一张厕所的照片，这张照片有什么不妥的地方吗？对，就是厕纸的位置，上厕所时，厕纸在这么远的地方，是不是有些奇怪？

看一下这个是怎么来的，右侧这个框是我们的算法框架，叫MMEditing，可以任意移动图像上的物体进行编辑，比如改换地毯的位置。试想一下，如果未来这些编辑能够有效地把图片和视频中的东西移到你想要的任何位置时，人工智能能够生成内容的那一天，其实会来得非常快。

这些技术的实用价值还有待进一步挖掘，但是人工智能真的还能做更多有意思的事情。

比如MMEditing框架，能够实时从大家跳舞的动作中抽取骨架，并且是一个稳定的骨架搜索。那么我们在做运动的时候，就可以很精确地把骨架进行分析。下图中间是一名冰壶运动员在清理地面时的一个动作抽取，当这些问题都能很轻松地提取结果时，我们很多的运动分析和判断都能够通过机器来完成。

还有一些语义上的编辑，比如说要生成一只猫，上面最右侧的图片是我们用GAN算法生成的。生成这只猫的过程中，我们现在可以加入很多语义的控制量，比如让猫大一点，猫头大一点，耳朵长一点，眼睛大一点，这些诸多变量的变化都可以通过语义来控制生成的过程，并且是用一个解析的方式真正地完成猫的生成过程。

试想一下，除了刚才编辑真实的内容之外，我们还可以在环境当中去生成我们任何想要的，比如卡通人物照片里面的脸形、眼睛的大小、发型的变化，都能够通过语义的调节来进行新的生成。

还有PS照片，对于单张照片我们可以比较容易通过各种软件进行编辑，对于实时的视频，我们现在也可以很轻易地做到这一点。用这样一个简单的方法，就能把你不想要的东西给清除了。

在拍摄的视频场景中，如果有一些不小心进入画面的人或物体就可以轻易地给抹去。未来，人工智能能够很便捷地大规模生成各式各样符合观众习惯的视频和内容。

开源框架OpenMMLab

以上提到的这些都是在一个框架中，一个开源的框架，叫OpenMMLab。MM代表的是多媒体（Multimedia，不是MingMing，也不是MeiMei），解决的是多种媒体的融合。

1个算法的框架，10多个研究垂直领域，100多种算法和600多种预训练的模型，商汤和香港中文大学-商汤联合实验室一起推出了迄今为止最完备的算法体系和框架。

我们从2018年10月份开源第一个框架算法到现在，两年多时间，已在GitHub收获了16895个星标，是全中国所有开源框架当中星数最多的。除此之外，我们还会有更多的这样框架上线。

虽然我们开源的时间只有短短两年，但任何一个框架都经过了非常长时间的积累。

以图像编辑来说，我们在2014年时推出了全世界第一套用深度学习做超分辨率的框架，放到了MMEditing中。

今天，我们累积了大量的学术论文和学术成果，让这套框架开源，使得很多学术的比较、最好的最先进的算法框架的实现，都能够在其中完成，让研究人员能够更好地与传统算法做比较，和最优秀的算法做比较，让工业界能够很快地上手去完成第一步的启动。这是我们推出开源框架的一个核心的作用。

很多时候，大家如果要去找一棵大树的时候，都会想到去森林里面找，所以人工智能也是一样。人工智能的细分场景和细分应用非常多，我们一定要去拥抱这样一个开放共创的生态，我们要的不是一棵独木，我们要的是一片森林，所以最关键的一个创新驱动力叫做“开放”。

▎总结：人工智能创新的三个策源力

我们来总结一下刚才所讲的三个创新策源力。

第一，我们要做的是包容，我们不能对算法求全责备。

很多人可能会问这样的问题：我要检测某个场景下的问题，准确率只有80%，能不能使用？

其实，我们可以换一种角度思考，它不是丢掉了20%，是检测出了80%。还以刚才的粪车偷排为例，如果这套系统上线，准确率只有80%，但却能把八成的粪车偷排检测出来，实际上已经很大推动了行业的变化。可能大众的观点还在于说依然有两台车没有被检测出来，但这就是随着时间的推进，有了这样的一个包容过程，才能够真正起到迭代的价值，就好像那匹四蹄腾空的马。

第二，我们要解决长尾行业应用的实现。我们不能再只聚焦在头部的应用中，人工智能不能只为一个亮点、解决一个核心的问题，真正要做到效率的提升，是需要我们把大量的细节问题给解决，魔鬼在细节中。

第三，我们要的是一片森林。我们需要各种各样的生物，需要开放创新，这也是我们迈出的第一步，我们开源了这样的算法框架，未来会引入更多的生态系统来共同完成。

但是，真正能带来创新的一个核心根本，我认为是对人工智能认知的提升。为什么会容错？为什么知道怎么去影响长尾，为什么能够产生生态，这还是一个认知的问题。

1885年当福特造出第一台汽车时，很多人嘲笑是个怪物，因为它只能跑15公里每小时，还没有马快。这样一台造价又贵，跑的还比马慢的东西，谁会要？如果当时就停止发展，我们今天也不会有跑在汽车上的时代。

所以，对于这些事情的认知，大家不能当成是洪水猛兽。蒸汽机刚出来的时候，很多人都认为它是一个Killing machine；交流电诞生，爱迪生用交流电电击小动物宣传交流电的危险；对于这些事情，我相信大家都会觉得当时如果就停在那里了，就不会有我们这个时代。

在几天前的世界人工智能大会主论坛上，张文宏医生不是搞人工智能的，但他也指出未来人工智能在医学当中的发展方向——怎么样打破数据孤岛，由数据来做决策。

现在，普罗大众，就已经有这样对人工智能的认识，各个行业里都能够知道怎样去用人工智能改造了。

有一天，我打车堵在路上，滴滴的司机就和我说：其实有很好的办法管理交通，你想每天上下班开私家车的人，上下班的路径是一致的，所以只要把那些私家车和他们每天的路径识别出来，就知道每天直行的车有多少，拐弯的车有多少了。之后根据这些信息控制一下红绿灯，让直行车多的先走，是不是整个交通就会变得很好？我听了之后非常诧异，这是一个滴滴司机给出的人工智能怎样去解决交通问题的一个思路。

所以技术要真正的进行变革，要进行创新策源，在于技术怎样去提升普罗大众的认知，只要普罗大众能够理解到这个技术是怎么样改变行业的，那么它就一定能深入到各行各业当中去。