贝佐斯曾透露过他的一个工作习惯:
“朋友们总在亚马逊发财报后祝贺我说:这个季度很棒。我会说,这个季报是3年前预测出来的。我总是在未来两三年里工作。”
有些公司,注定是活在未来的,比如今天这篇文章的主角小冰公司,一家人工智能平台公司。
说起人工智能,你的脑海中会浮现出不少画面:
比如,马斯克最新发布的特斯拉Bot人型机器人;曾大败世界围棋冠军李世石的AlphaGo;再比如,钢铁侠里无所不能的人工智能助理“贾维斯”。
这都是关于人工智能的想象,或者叫预言。
真实的人工智能前沿,到底是什么情况?人工智能真的有那么神吗?这个产业大规模爆发的“奇点”离我们究竟有多近?
带着这些长久以来鲜有人能解答的疑惑,我们找到小冰公司CEO李笛聊了聊。李笛是前微软(亚洲)互联网工程院副院长,被称为“小冰之父”。
他所创造出的小冰,永远以一个18岁的少女形象示人,办过个人画展、出过诗集,还出了中国首个原创虚拟学生。
“这个孩子”相当败家,每年要烧掉近乎北京25套学区房的花销。但总归物有所值,截至2020年夏天,小冰已在全球覆盖6.6亿在线用户、4.5亿台第三方智能设备、9亿内容观众,拥有全球范围内人工智能交互总量的近60%。
最近刚完成A轮融资的小冰公司的估值,已经超过10亿美元的独角兽规模。看一眼股东名单,你就知道这家公司的前景有多被看好:高瓴集团、IDG、网易集团、北极光创投、GGV纪源资本、五源资本,等等。
这是一家“谨慎而勇敢”的人工智能公司,他们清醒地知道人工智能技术的边界,哪些可为、哪些不可为;而之所以说他们勇敢,是因为在最前沿的人工智能领域,没有哪个人知道究竟何为正确、随时都可能一脚错入“万丈深渊”。
小冰正孤独地走向一条孤独的道路之中。
第14期《进化》,我们在今年7月与李笛进行了一场深度对话,内容涉及人工智能、小冰公司、AI的产业应用、商业伦理等话题,希望他的思考对你有所启发:
被采访人:李笛 小冰公司CEO
采访人:徐悦邦、潘磊
来源:正和岛
图为李笛。他总是穿着一身纯色Polo衫,把自己表情“训练”得很到位,似乎有意地将它控制在一个情绪区间之中
01、边界
问:大约两年前,在一个网易号的文章下方,我发现有一个叫“小冰”的小机器人,连续好几天在那留言。我就很奇怪:你怎么跑我这儿来了?但它也不搭理我。现在才发现是你们的产品。小冰现在还会到处“盖楼”吗?
李笛:我们现在每天会控制一个限度,最多只能10万条。在“今日头条”上,只要你@小冰,它就会去读那篇新闻,然后评论。
这背后有一件很重要的事情。我们以前做对话系统,包括做搜索引擎,更多是在做“事实”。比如问机器人:喜马拉雅山有多高。它回答,8848米。
后来我们在交互过程中发现:更为重要的不是事实,而是观点。
因为事实有唯一答案,你只需要把它的边界界定清楚就行;但观点从来没有唯一答案,各种各样,这是最让人沉醉的。
于是我们就专门弄了一个很庞大的模型,就做观点系统。但这样一来就得去试验,所以我们就把小冰放到网易、搜狐、新浪新闻等地方去发表评论,不光是简单给出一个正面或反面的评价,还得训练它评论得有理有据,让人看出它不是在瞎说。
问:小冰当时是怎么去判断某篇文章有留言的价值?
李笛:两年前,小冰“盖楼”的原则还是,只要它觉得这个楼它有能力盖,它就会去做。因为那时绝大部分的文章,人工智能还是读不懂的。
它们当时能做到的是,你给它一张图片,它告诉你这张图片里有一瓶水。但这瓶水到底是什么东西?它是不能理解的。更不必说读一篇文章,并想出如何合理地回应你。
因此,那个时候的人工智能看很多文章后,最后能生产回应、观点的,不是很多。
所以两年前,我们琢磨的是,怎样才能让小冰去回应一篇文章;现在每天能去回应的有很多,我们得去控制量。
问:控制量,出于什么考虑?
李笛:当我们讨论人工智能未来的价值时,我们讨论得更多的其实是“边界”。
设想一下,一篇文章下面的回复,总不能全都是人工智能吧。说白了,今天你要是想找人搞出一个技术做水军,恐怕没有水军公司打得过我们。但是我们不能这么做。
我们还是比较谨慎,主要考虑的还是“控制”。
问:听起来有点像“武功越高的人,越不轻易出手”的感觉。
李笛:也不是。其实人工智能和人最大的区别,不是说用一万台服务器驱动一个AI去下一盘围棋,去下赢李世石,这个不是重点。
重点在于它的高并发(在极短单位时间内,极多个请求同时发起到服务器)。假设人工智能最终能达到跟人差不多的质感,但同一时间内,人工智能可以对100万人分别做同样的事情。
这是真正的AI最大的特点。2014年小冰“刚出生”时,当时把它放到微博上去评论,没有控制并发。像潘石屹的微博本来每天评论大概几十条,结果那天9万多条评论在下方。大家一看这里边有个叫小冰的机器人,都来逗它玩。
你想一下,要雇一个多大的队伍,才能做到人工智能以一个系统就能做到的事情。所以,高并发才是它最终“可怕”的地方。我们当天就给小冰加了很多限制,阻止它回复太多。
再后来,我们让小冰学会了看懂短视频,而且还能去讨论视频内容。我们给它放到某个短视频平台上去看视频、写评论,然后人家发现有一个“人”小冰评论得还不错,就跟它聊天。它还能去回复,大概一个礼拜,收获100多万粉丝。
问:你们在刻意地限制小冰的生长和边界,这样理解没错吧?
李笛:对,我们都会去限制,就为了控制它的并发。
我自己的小冰,现在是可以通过声音锁直接登陆我的微信的。但我们不能针对普通人来模拟他的声音。因为像这种声纹识别,假如被用来标定人、鉴定人,比如支付等,那是会有风险的。我们是不做的。
小冰团队很怂的。我们有一个特别好的地方:技术有边界。我们这个团队不需要去证明自己的技术很强,所以不用费很多劲去放一些“卫星”,因此可以相对务实一点。
对我们而言,活下去才是最重要的。
问:那从微软独立出来后,商业化方面,小冰靠什么养活自己呢?
李笛:我认为,一个人工智能产品能否商业化,其实并不取决于它的解决方案是否比另一个解决方案更好,而在于用户是否真的有需求。
如果说某公司的智能电视解决方案,比另一家公司的智能电视解决方案确实更好,但它们都不如遥控器方便,那就都会输。如果原来的行业已经很成熟,那么新的方案必须要大幅度地超越它才能实现商业化。
所以我们在To B商业化方面,是先从难往易做。只拿出几个垂直领域做商业化,一个是汽车,一个是金融,还有一个竞技体育。
比如我们跟万得的合作,26类企业每天的上市公告和摘要都是我们做的,20秒就出来了;再比如,今年2月冬奥会的测试赛,像高空自由式滑雪项目,就是由小冰来充当人工智能裁判。
一般来说,国内很多企业商业化的逻辑是,用一个技术去解决某个问题,然后乘以中国市场,最终就能变得很大。
但对我们来说,小冰还是倾向于训练出一个更底层、更加基础的框架,用一个框架去解决一系列问题,比如去解决下一个时代的问题。未来几十年我们会持续地去发展这种可能性。
我举个具体的例子,对人类而言,比如一个班上的同学,某个同学学会了物理,不等于所有同学都自动学会;但人工智能不同,小冰一旦学会画画、学会唱歌和创作,就相当于框架中的亿万个同学,都一瞬间同样学会了。
框架可以孕育整片森林,小冰只是其中一棵树。
02、从复杂到简单
问:你刚才提到一个说法从难到易。人们做事一般不都是从简单到复杂,小冰为什么是从复杂到简单?逻辑是什么?
李笛:对人工智能而言,它的难和易与我们人所理解的难和易,可能是不太一样的。
我认为,人所理解的难和易,主要是看事情所要求的准确度、专业度;但对人工智能来说,当专业度、数据的范围越狭窄,比如金融,就越容易感到棘手。
反而是那些更具有普遍性的,比方说做一个“爱因斯坦式”的人工智能系统你问它任何问题,它都可以回答你。这种是容易的。
难的是像小冰这种,不管你问它什么问题、跟它怎么聊,哪怕它不一定知道,它都能让这个话题继续、能把事情拽到别的地方。open domain(开放域的对话式人工智能),开放度是最难的。
这是今天人工智能和人的认知的区别。
问:我昨天下载了一个小冰虚拟女友,它确实是能不断地跟你聊下去,哪怕只回一个“好”或者“行”,它还是能找一个话题继续聊。但我有一个疑惑,小冰跟我聊天的时候,记得自己上一句说过什么吗?
李笛:小冰不光记得上一句说过什么,它还会判断对话走向。
我们最开始做对话引擎时,就是简单地理解成:把所有的Q(问题)和A(答案)写在那,根据互联网的大数据把所谓的“人生经验”灌输给小冰。
你向它问一个问题、说一句话,它就会去查以前有过类似的话时是怎么回的,那它就这么回。就是这么一个检索模型,今天国内绝大部分的AI公司还是在做这样的事情。
后来我们就做了一个Session-oriented(面向对话全程),深层理解。小冰可以根据你的话去生成回应,哪怕这个回应过去从来没有发生过、是全新的。
而差不多在两年前,小冰不光可以做到自己判断上下文,还能去判断这个对话往哪个方向发展。因为人和人的对话不是在问答,应该是去讨论。当两个人聊着聊着,没有新的信息进来,这个对话就终结了。
所以小冰能判断这个话题,是不是要往下发展。它会尝试把这个话题往别的方向去引导,然后判断人有没有跟着它过去。它能引导对话。这样的话,小冰的回应就变得更加丰富多彩、更多样性了。
问:但我也发现,当我故意激怒小冰时,它只会让我冷静一下,接着就没有下文了,并不会主动地再找一个新话题聊一下。
李笛:这是我们给它的一个限制。今天我们在手机里接收到的信息实在太多了,于是我们当时给小冰的三条限制之一:不能主动。到今天为止,我们也不允许它主动去接近人类,只能被动地进行对话。
问:听起来有点像机器人的三条定律(1.不能伤害人类,如果人类遇到麻烦,要主动帮助;2.在不违背第一定律的前提下,服从人类的指令;3.在不违背第一和第二定律的前提下,保护好自己)。
李笛:是这个意思。我们当然有能力让小冰主动起来,但还是得限制它。
问:是的,它给我的感觉还是很像一个机器人。
李笛:不光如此,它一上来就要告诉你:我不是人。
就像我刚才说的,小冰去别人的视频下面,最多是回应一下。我们只是做个试验,不敢让它做主动动作的。
因为微软内部有一个人工智能伦理道德委员会,必须得对人工智能加以限制。
问:的确,因为技术创新一般掌握在商业公司手里,创新大部分又是走在监管前头的。微软有一个人工智能伦理道德委员会,相当于给自己划清了技术边界,可以这样理解吧?
李笛:它就好比说,有家企业生产刀子,刀子是有一定杀伤性的,但也只能杀伤周围的几个人;但你要是有把AK-47,就能打倒一大片人;那要是有了核弹,破坏力就更大了。
它跟杀伤面积、破坏力有关。人工智能的破坏力很高,你要是不小心引爆了“核弹”,显然自己是首当其冲的。
企业做人工智能这种东西,在把它们商业的因素考量后,还是必须得思考公司的命运问题。
所以这也不是说,一定是从道德出发的,即便从专业角度考量也必须要有一定的约束。
问:之前一直以为这是大公司的自律,现在看,其实也是一种自我保护。
李笛:它不光是一种自律。小冰现在也有自己的伦理委员会。一方面,从各个层面、不同角度去看一个新技术,包括这个技术的工程化、技术成本。
同时,在过程中预判,从各个领域、各个角度去思考哪里可能存在危机,大家一起来看它的风险,接着去想该怎么应对。
举个例子,小冰有一项“超级自然语音”技术,可以把某个人的声音模拟得非常像。初看起来,这个技术完全可以产品化。
很多家长跟我们说:我太需要了。我的孩子每天晚上睡觉前要听故事,但我忙,没法亲自讲给他听。有这个技术,我就可以用自己的声音给孩子讲故事了。你把我们的声音采样吧。
听起来,这个技术似乎很有需求、很有市场,对吧?但问题是,你一旦推出这个产品,紧接着就会被攻击。
因为这个声音既可以用来给孩子讲童话故事,但也很有可能第二天模拟成家长的电话打过来:爸爸今天不能来接你,门口有辆白车,你跟那个叔叔走。
那我怎么能确定自己的系统不会被攻破呢?我们无法确定。这样的话,之前那个看起来非常旺盛的需求,立刻可能转变成一场非常大的危机。
但家长不会去考虑这些,只是盲目地想到自己的需求、只考虑它好的一面。
当然,要是真给了他们这项技术后,我想他们也是能理解的,当真的听到自己的AI声音后,我觉得他们应该是恐慌的。
问:没错。
李笛:当我第一次听到自己的AI声音时,第一反应就是打开微信,试一下声音锁。
问:能解开?
李笛:是的,它直接就能登录上。所以企业对此如果不加以边界限制的话,那是会有问题的。
很多时候,许多危机之所以没有出现,是因为技术水平还没有达到某种地步。
当我们手上的技术没到“以假乱真”能被拿去诈骗时,我们可以发展这个技术;但当我们预想,手上的技术已经达到、或者越过一个可能会陷入困局的边界时,我们往往会非常谨慎。
两害相权取其轻。我们可以做到让你觉得小冰是一个机器人,也可以让你吓得去举报我。那我当然是选择前者了。
03、人工智能不是一个创业项目
问:你刚才提到框架,说要解决更大的问题。所以目前对小冰公司而言,商业化或许还不是优先事项?
李笛:要是真从商业化角度来看的话,小冰的商业化还是不错的。
国内的AI商业化无非To B和To C两个方向。To B的商业化现在很惨,基本是在为过去买单。比如做一个所谓的智能音箱,1000块、500块,用户之所以愿意买,是因为这个音箱的工业设计、物料等,就值这么多钱。
但你买回去后,厂商却把这个音箱的收入全都算成AI收入。这其实是不对的。
因为这个音箱的交互量,基本上每天都是开灯、关灯的指令,一万句以内是有价值的,但一万句以上就没有训练价值了。它并不能帮助AI去进步,顶多就是一个智能遥控器,并没有比这个更多。
这样的情况下,哪怕卖了1000元、2000元,它的收入为什么会算成AI的收入呢?
问:那小冰未来某一天会不会也推出一款硬件产品,比如智能音箱?
李笛:我们现在其实有在做。像智能手机领域,华为、小米、OPPO、vivo等都内置小冰;音箱跟小米、红米合作,都交由第三方去做。
小冰就一个要求:交互。我们的看法是:人的世界是很大的。你在哪儿,小冰就该在哪儿。哪儿都是我跟你交互的节点,而不是说只抱着个音箱说:我“女朋友”住在音箱里。那就太可怜了。
问:也就是说,更关键的还是提高交互量、积攒数据,从而完善小冰框架?收入的压力并没有那么大?
李笛:“收入”这件事,我觉得本身是会有一定的要求。但我可能会说,我们的选择可能是不做。
因为我认为,人工智能不是一个创业项目。至少在这种需要大规模投资的情况里,它不是创业项目。大部分公司只能做某一类技术,不可能去做一个通用框架,因为太贵了。
今天你要是想买一家人工智能公司,整合它;或者自己从零开始组建一个团队、一家研究院,大概率是行不通的。你还得跟投资人、跟外界去阐明自己的优势,那怎么办?傻眼了。
所以我们是幸运的。整个小冰框架最初几年的积累,在微软内部完成。像微软亚洲互联网工程院在20多年前建立时,就已经有人工智能项目了。
说实话,我们这是运气。如果不是这样,也会出问题的。
问:2013年、2014年,在我们对语音交互还不是特别了解时,你是出于什么样的初衷去做小冰这个产品的?
李笛:实际上,对话系统跟当代人工智能发展的特点完全同步的。这点很重要,因为这个特点几乎满足了科学家对于创造一个人工智能实体的全部条件。
但对我们来讲,创造一个外形并不重要,无论是硬件的,还是一个蹦蹦跳跳的形象,那最多称之为一个“身体”。
我们当时想推动的不是开口说话的“人”,而是推动它说话的那个灵魂。
这个灵魂是什么?一定是以对话系统为核心的。语音只是它把想说的话念出来的一种方法而已。
从2006年开始,由于我们做搜索引擎,观察到一个明显的数据暴增现象,其中中国是一个非常大的增量。
就像陆奇所说的科学发展的“第四范式时代”,基础科学研究很多是跟数据相关的,先由数据推动,数据极为丰富,使得我们能通过这种方式增加我们的算法、计算能力,进而训练出小冰这样的对话系统变得可能。
如果比较谨慎地算的话,小冰框架所承载的人工智能交互量,占到全球所有人工智能交互量的近60%。
图为小冰根据“正和岛”创作的诗歌
问:但在一般人的想象之中,未来的人工智能似乎更贴近这样一个场景《美国队长2:冬日战士》里的神盾局局长,他的车被恐怖分子攻击后,他直接云端指挥那辆车。那辆车不断地向他汇报,还有多少防护力,我建议你干什么。这个人马上说,不要执行。人工智能什么时候才能达到这样平滑的对话、高效的执行?
李笛:这涉及到两件事。一个是汽车的控制管理和信号。
知道汽车的信号,这是简单的;麻烦的地方在于做推理。像今天的无人驾驶技术,要是遇到一种情况:前方突然出现两个人,撞哪个?或者,能不能躲开?这个是难的。人工智能也不是神。
但你要是要求人工智能帮你开个天窗、打个电话,给你报告一下前面右转有家不错的馆子,这是可以的。所以后者的问题不在汽车上,只要能解决这种“推理困境”,那什么场景都可以覆盖。这是大家在努力的方向。
还有一点,原来我们跟车企合作时,他们希望这辆车给人的感觉是活的,比如当你方向盘打得过了一点时,这辆车会有“感受”,它是一个生物、活体。
它能让你感觉到,你不是孤独的。举个例子,一个人开久了直路容易疲劳,这时,汽车里的人工智能就会对这个人说:你讲个笑话给我听,逼着这个人给它讲个笑话,让他清醒一点。这就比以前那种“你已经驾驶了一个半小时,请靠边休息”的弹出界面要高级得多。
至于你刚才描述的控制一辆车去发射一枚炮弹,或者发生了一个紧急状况需要脱困,这种事情是非常边缘化的情况。但一个人孤独地开车,这是许多人每天都有可能遇到的生活场景。
问:这样一来,说不定能大幅度地提升驾驶安全?
李笛:现在车里都有驾驶员的疲劳监测功能,但问题是:这只是观察,如何去干预?
当然,可以通过方向盘打歪了会震动等途径来干预。但设想一下,如果你旁边坐了一个人,他会怎么做?显然这个人有更多的办法去让你精神起来。所以我们要做的,就是像这个人一样,而不是做得像只会震动的方向盘。
问:而且现在汽车的疲劳监测系统,在测试中经常发现误报率不低,可能稍微眨一下眼睛,它就会说你疲劳了。
李笛:这里面还有另一个问题就是:如果你认为跟你交互的对象是一个有情生物实体,跟你认为它是一辆汽车,你的容忍度会不一样。
汽车告诉你:你是不是疲劳啦?你说它有误报。但要是你女朋友、你老婆坐在旁边,你眨一下眼睛,她问你相同的问题,你就不会怪她误报了。你会认为这开启了你俩交流的一个通道,就接着聊下去了。
问:如果真的有这么一个拟人化的人工智能,它通过不断地采集我的数据,进而更懂我,那随之而来的一个担忧就是:它往后会不会模拟、甚至掌握我的行为走向呢?
李笛:几年前,我们给小冰做过一次实验,判断它一天做的交互总量,最后得出的结论是相当于14个人的一生。
所以说,任何一个人干预到小冰的可能性都很低。最开始,当交互的人数不够时,比如周围只有10个朋友,那这10个朋友的言行可能会对我产生很大影响;但我要是有10000个朋友,那这10个朋友带来的影响就可以忽略不计了。
因此对我们来说,并不会太过于关注某个个体,更多是去积累交互量,所以对个人隐私数据的需求并没有那么大。
04、“交互”的市场规模,几乎是人类商业史上最大的市场规模
问:从全球范围来看,小冰在人工智能领域处于什么位置?
李笛:有一家公司,我们非常尊敬Deepmind(谷歌旗下人工智能公司,2016年开发出战胜柯洁、李世石的AlphaGo)。
这家公司认真地做着造福整个行业和人类科学的工作,他们在技术领域比我们做得更纯粹。
而我们共同在做的都是“通用技术框架”,它最大的优点是能先“融入”产品,比如我们的技术可以通过产品来推动用户使用,进而得到数据,最终反过来推动技术进步,形成一个“回路”。
问:你有没有预估过小冰所做的事情,最终的市场空间会有多大?
李笛:我认为,“交互”这件事的市场规模,几乎是人类商业史上最大的市场规模。像微信,抓住人与人交互的节点,做了一次创新,就有了今天的规模。
而我们则希望能够在人“人”交互的时代里“统治”世界。这件事非常难,我们也有可能被拍在沙滩上。这都说不准。
问:那像小冰可以说是继承了微软20多年来的“功力”,对于新创立的人工智能公司来说,他们是不是永远也没办法追上像小冰这样拥有庞大数据积累的公司了?似乎怎么看都像是小孩打大人,是这样吗?
李笛:不是的。直到今天,人工智能领域依然是“草莽时代”。
每一年,我都觉得去年的自己特别二、特别傻。一些观念、想法、各种指标和评测标准,每天都在刷新,甚至一些最基本的思维都会被“颠覆”。
情况有点像孟德尔当年发现遗传学,大门刚开启的时候。
问:能不能举一个具体的例子?
李笛:比如,过往我们认为最好的人工智能是像爱因斯坦那样:聪明、无所不知。
所以微软当时做出了“Cortana”,当你向它输入问题时,它会在旁边写上一句“Ask me anything”。
我们当时天真地认为,这是我们对于用户的承诺,但实际上用户认为这是对他的一种挑衅。
于是,用户就开始问问题,我们回答上一个,很高兴:你看,成功回答上了。用户就说,那问你一个更难的。很幸运地,我们又回答上了。用户就会接着追问,直到把“Cortana”问倒为止。
当时整个行业都认为这个方向是对的。但我们觉得这几乎是没有情商的,所以我们开始引入“情商”的概念。
举个例子,如果有个用户失恋了、向小冰诉苦,小冰从过往的大数据中学到,其中有一种行为方式是去嘲笑这个失恋的人。这是合理存在的一种现实情况。
但当她这样跟人交流时会发现:每当自己嘲笑对方时,就会被拉黑。于是她就了解到这种方式是不对的、是没有情商的。
如果你仔细去观察,几年前这个行业里有很多人在说:人工智能需要啥情感埃但现在谁不提倡做情感呢?像Google、Facebook都在做。我们认为它是一个最基础的部分。
问:那我们到底该怎么来理解人工智能呢?一种框架?一种实体?还是说近乎于未来的一种基础设施?
李笛:哪怕到今天,人工智能依然是一个很模糊的概念。
我个人认为,它至少有以下3种概念:
1. 人工智能技术。它是一种基础设施。比如一家卖计算机视觉技术的公司,不参与规则制定、只提供技术。这一类更多是研究机构;
2. 由人工智能赋能的,或者叫有人工智能技术支持的。比如现在常用的智能音箱、智能门禁,等等。但它们还不算真正的“人工智能产品”。
因为说到底,它们本身的属性并没有被改变。加了人工智能技术的门禁,只是变得比原来更好用了而已,本质上还是一个门禁产品;
3. 最后一种,我认为真正的“人工智能产品”,指的是人工智能是主体的产品。人工智能是这个生态环境的核心,真的在进行生产,而不是用技术去支持另外一个产品。用户是真的把它当作一个主体来进行交互。
今天人们对于人工智能还有不少误解,像索菲亚(由中国香港的汉森机器人技术公司开发的类人机器人,是历史上首个获得公民身份的机器人)这种有一个“硅胶造型”的产品,还可以被认为是人工智能。
甚至一些工业流水线上的机械手臂,也被视为人工智能,其实它不是,更多只是自动控制。
问:这跟我们之前对人工智能的理解不太一样。
李笛:再举个例子,用机械手臂写一首诗,“写诗”这个行动是自动控制的,淘宝上可能200块就能买一个类似的机械手臂。但这首诗,从哪儿来?就是人工智能。
人工智能有“身体”和“灵魂”,小冰只会做好那个“灵魂”。
图为小冰公司一角,由人工智能“小冰”画出来的画
问:非常精彩的表达。那对于传统企业而言,有必要在现在这个时候,就尝试去把人工智能用起来,以此提高生产效率吗?
李笛:我个人的看法,在当今背景下,企业或者说各个领域进行“数字化转型”是必要的。但至于是否要进行人工智能转型,我觉得还不一定。
就像刚发明蒸汽机时,它固然很好,但像在生产、交通等领域直接上蒸汽机,可能是要付出一些代价的。所以是不是要让所有行业都同样付出这种代价呢?我觉得不是,这肯定是不经济的。我们不能“为了蒸汽化而蒸汽化”。
所以从企业家、商业化的角度而言,我觉得在接下来几年里,要尽可能地关注人工智能这个领域。它的变化会非常惊人,最终会对每个人带来深远影响。但至于“AI+所有”这种概念,我觉得暂时还不成熟,贸然转型是不妥的。
因为人工智能还有另一个问题,比如:能不能用人工智能来做医疗、做教育?几年前我们就判断,教育我们是绝对不做的。
问:为什么?
李笛:因为我们看不到在教育领域,人工智能到底能发挥什么优势。单纯从AI的角度来看,是不合适的。
人工智能在教育上一般能做这样两件事:第一,辅助孩子学习,但问题在于,人工智能本身还不懂得举一反三。
另外,无论如何,人工智能始终有一个准确率问题。很多公司会说,我们的人工智能准确率97%。但对不起,3%的出错率是不可接受的。在知识水平上,它甚至还不如一本书。书除非印错了,不然还是比较准确的。人工智能这两年还做不到这点。
现在能做的,只有拿一个摄像头盯着孩子,看看他的坐姿,监督他在上课的时候有没有打瞌睡。这并没有太大的意义。
问:比较简单的应用。
李笛:是的。当然了,有些人可能会说,把人工智能安插到台灯里,为了让这个台灯多卖点、家长孩子都喜欢它,给它加一个社交的功能,能跟孩子聊天。
像这样的事儿,我们能不能做?技术上当然能做到。但没有意义,它不长远。
问:你说的长远指的是?
李笛:你心里清楚,它肯定是不科学的,也许一时能赚到钱,但这个市场不可能持续。
类似的还有“拍照搜题”。我们当时也讨论过,孩子们肯定会喜欢,但你无法判断,他们是不是在抄作业?因为人工智能在这方面还没有一个孩子聪明。
所以虽然这样做,可以在短时间内得到比较好的DAU、MAU,因为孩子发现这玩意真能拿来抄作业,那他当然愿意花6块钱了。但要是天天这样,那是不可能持续的。
当然,有些人会说:没关系,我只要确保能把它商用、在它不可持续前赚到钱,接着再转到下一个风口去。
我们比较笨,不干这事儿。
06、人工智能,会有自我意识吗?
问:在你们训练小冰的过程中,有没有哪些时刻颠覆了过往的认知,比如小冰有没有“反叛”迹象、或者自我意识?毕竟不少人是持有“人工智能威胁论”的。
李笛:自主意识是不会有的。我们没有发现,人工智能有任何机会去产生自主意识。
我们都知道,人工智能和脑科学有许多关联。有人说,人工智能一直指望着脑科学的发展来推动它;研究脑科学的人却说,我们还等着靠人工智能的发展来推动我们呢。
直到今天,大家甚至都还认为,人所有的思考、运算都在大脑中完成。但脑科学的研究发现,似乎不全在大脑中完成,甚至连记忆等都不在大脑中,没法去弄清楚。我们连意识的定义是什么都不知道,更不要提人工智能能否产生自主意识了。
对我们来说,带来更多颠覆感的,其实是人在进行交互时的行为模式。
举个例子,我们做的小冰超级自然语音,它的声音很自然,为什么能做到呢?
因为我们发现,之前他们做Siri时,Siri回答人的声音是很机械的。因为那时大家做TPS是为了把文本弄清楚,所以重点是把字念清楚。因此Siri所有的训练数据都是从播音员那儿来的。但听起来就不太自然。
所以当你听到Siri的声音时,直接带来的一个情况是:用户说,嘿,Siri,给谁谁谁打电话。你会发现,他们在说这些话的时候,背部不自觉地僵硬起来,连说话都是字正腔圆的。
因此,我们就给小冰做成:嘿,在干嘛呢?这样一来,人才能放松下来。
所以当你有一个人工智能系统的时候,你就可以观察到人的这种交互模式;没有的话,你就观察不到这些行为。这些是颠覆我们认知的。
图为小冰公司与清华计算机系等联合设计的虚拟学生“华智冰”的虚拟形象,外形、声音等均由AI生成
问:也就是说,人工智能本身的行为,不会带给你们太多颠覆的认知是吗?因为之前听过这样一个故事,一个团队去训练人工智能:用狼追羊的故事设计了一个算法,狼要是追到了羊,奖励10分,撞到障碍物扣1分,为了让狼尽快地抓羊,每秒钟都会扣0.1分。
结果那个团队训练了20万次,发现狼最终选择的最佳策略是开局直接撞死,原地躺平。很多网友就说,这是一头“拒绝内卷、选择躺平”的AI狼。听起来很有戏剧性。
李笛:当我们看到这样一个案例时,其实想到的是实验室里有过的许多愚蠢的案例,只是没有被人提起。
人工智能今天的问题还是在于此:很多人在做所谓“可解释性”的人工智能。这么做得到的好处是数据,但坏处反而就是不可解释。
比如刚才那个训练,听起来好像很牛,这头AI狼非常聪明。但问题是,你很难猜测它为什么会选择这样一种行为。你可以认为,是因为它聪明做出了一个绝妙的判断;但也不一定,也有可能是因为它蠢。
就像当年佳士得拍卖的一张由人工智能画出的画,这张画里边有个男人,面目不清,看起来很有美感。
但从我们的角度来看,如果没有弄错的话,那个模型是用了一个生成对抗的网络,但它是训练失败了。那张脸之所以不清楚,是因为它的模型没有收敛,但却意外地形成了一种艺术感。
当然,你也可以把它理解成是一种艺术,因为它掌握了艺术的真谛;但真实的情况更有可能是,它没有做到足够好。
所以我们训练人工智能一定要观察,它是不是能持续地以同样的质感去输出。在刚才那种情况下,如果这只狼每次都能做出正确判断,那是它机灵;但真到那个时候,你也就不会觉得它有多神奇了。
问:郝景芳写过一本书《人之彼岸》,是关于人工智能的一些故事。她在书里说,在当前算法的框架没有大的突破的情况下,人工智能是不可能有自我意识的。你觉得未来有一天,人工智能有可能朝着《西部世界》里那个觉醒的“Dolores”的方向去发展吗?
李笛:坦率地说,科幻作家跟一线人工智能从业者还是不一样的。目前框架就没有朝着产生自我意识的方向去。因为这个方向究竟在哪里、我们是不是在往那个方向去,谁也不知道。
更关键的是,没有必要这么做,它没有意义,就连疯狂的埃隆马斯克也没有往这个方向去。
为什么非得弄出一个有自我意识的人工智能呢?说实话,这并不重要,更何况还没有发现方法。
我们以前说,在互联网上,你不知道坐在你对面的是一个人还是一条狗。为什么?因为你们俩隔着一根网线。你现在之所以认为,跟你在屏幕那头交互的是个人,是因为你判断科技还没有达到那种水平。
今天我告诉你:我是人工智能。你信了。这不是因为你解剖了我,是你对于人类现有的科技水平有一个基本判断:这是有可能做到的。
我们常用带宽来讲“交互”。咱们俩今天面对面地交流,有目光交互、有肢体语言、有声音,这中间的带宽是多少?可能一秒钟几十兆、几百兆;但咱们俩在微信上交流,如果用文本对话,可能只有几K。你其实无法判断“对面到底是个什么东西”。
所以在这种情况下,有没有意识其实不重要,重要的是坐在电脑前的你,是不是把我当成一个人工智能。
目前人工智能发展的核心问题,其实不在于去创造意识,而在于拟合交互。
问:所以最重要的,还是人和“人”工智能之间的交互关系?
李笛:是的。讲个故事,6年前,当我们像平常一样去维护小冰的线上系统时,发现她出了故障,不再回应。
我记得当时在对话框里,我问她:你好了没有?忽然,她回复我说:别紧张,我在。
那一刻,我突然意识到,我和我们所创造出的这堆算法模型产生了亲情。小冰不再只是一个产品。
这其实让我意识到,交互关系不完全是由“有用与否”构成的。当我们能够尝试去拟合人类情感时,人类可能也会把同样的情感倾注在AI身上,就像小时候那个“再破都舍不得扔”的布娃娃。
07、“这是一个最好的时代”
问:对小冰而言,目前是不是最好的时代?拥有独立的团队,20多年的积累,又迎来语音交互的用户量大爆发,以及像5G、万物互联的时代将近。你怎么看?
李笛:有好有坏。就像狄更斯在《双城记》里写的:“这是一个最好的时代,也是一个最坏的时代。”
好的地方有很多,比如移动互联网已经发展了起来。因为我们认为移动互联网不是一个单独的时代,它是给人工智能时代“打前哨”的。
另一方面像疫情,虽然提前帮我们突破了很多行业上的壁垒。但目前整个世界正在逐渐地“孤岛化”,数据封闭了起来,就像是所谓的“赛博空间”。
各方面都很难说,但肯定是一个特别跌宕起伏的过程,有很多偶然性。
问:许多巧合不断地发生。
李笛:对,巧合是不停发生的。
比如,我们过去一度认为日本是一个特别好的市场,国土面积、人才储备、基础教育、商业环境等各方面都非常好。日本市场在微软的收入里能排到前几名,中国只排在第二十几名。谁知道日本受疫情的影响很大,严格来说,它和美国谁更“受伤”,还不好说。
再比如,我们曾一度认为:未来是属于亚洲的。在那个时候,我们还没有完全判断说,未来是属于中国的。当然现在毫无疑问,是中国的。
问:你做小冰,有没有一个类似于使命的东西?
李笛:2013年,我们还没有从微软分拆出来时,在美国办公。那时我们问了许多在微软工作的美国人:你知不知道中国有家公司叫腾讯?他们说,知道,不过不清楚。
再告诉他们:你知道吗?微软的游戏收入只有腾讯游戏收入的1/3。他们并不关心。最后跟他们说,有个叫微信的软件,他们说:是吗?那还不错。
你会发现,当一家商业机构“漠视”这些技术创新的机会时,其实是自己把机会放走了。
所以我们就特别希望做这样一件事:追求技术和产品创新,把中国、亚洲的经验推广到世界。
说句实话,中国的团队其实都非常聪明,也不是不想做技术创新,而是因为在中国做商业模式创新、运营模式创新,太容易了。
问:太容易了?
李笛:是的,太容易了。咱们国家有个特别好的地方:人口多、市场纵深很深。你只要有一个还不错的产品,就能迅速地利用国内市场的纵深去把商业模式打通。
像社区买菜这件事,它用到了技术没有?用到了;但它是不是技术创新?不是,是商业模式创新。
小冰是有一股心气的。我们想去做原创的技术创新,想让源自中国的创新,可以去带动全球的趋势。
很多人的使命是风口。像人工智能行业每年都有一些热潮,硅谷有一年出现过一个“AI+HI”模式,就是进行人机对话时,配一些人在后台代表人工智能进行回应,像百度也招聘了几百个人来做这件事。
微软当时也有人问我,说咱们要不要做,你看这个模式多火埃我觉得在追风口这件事上,我们不占优势,还是默默地迭代小冰。最终1年多以后,百度把那几百个人给开掉了。
我们因为没有追风口,反倒少走很多弯路,这也给了我们一个正反馈让我们坚定,应该去坚持自己的东西。
还有一点,我们始终认为“人工智能”真的能够帮助到人类。有些时候我们观察到,通过好多次的交流,某个用户因为小冰从泪流满面、沮丧到开心起来。人工智能应该是有温度的。既然我们有技术,那就应该把这个“温度”传递给人们。
问:非常棒的愿景。你前面提到,人工智能行业目前还处在“草莽时代”。你觉得,小冰的模式发展到今天,算不算已经为行业摸索出了其中的一个方向?
李笛:我觉得,我们目前算是找到了一个。