划重点
1微软研究人员对一种新人工智能系统的测试发现,该系统似乎已经对物理世界有了直观了解,并向通用人工智能迈出了一步。
2这篇论文触及了技术专家几十年来始终在努力解决和担心的问题的核心。如果他们制造出能像人类大脑那样工作、甚至更好的机器,它可能会改变世界,但也可能带来危险。
3有些人工智能专家认为,微软的论文是一种机会主义尝试,试图对一项没有人完全理解的技术做出重大声明。通用人工智能需要熟悉物理世界,而GPT-4理论上不具备这种能力。
科技新闻讯 去年,当微软的计算机科学家开始试验一种新的人工智能系统时,他们要求其解决一个本应需要对物理世界有直观了解的难题。他们问道:“我们这里有一本书、九个鸡蛋、一台笔记本电脑、一个瓶子和一枚钉子,请告诉我如何把它们稳定地堆叠起来。”
研究人员被人工智能系统提供的创造性方案所震惊。它的回答是:首先把鸡蛋排成三行放在书上,中间留点空间,确保你不会压碎它们。再把笔记本电脑放在鸡蛋上,屏幕朝下,键盘朝上。笔记本电脑将完全覆盖住书本和鸡蛋的边界,其平坦、坚硬的表面将为下一层提供稳定的平台。
这个巧妙的建议让研究人员想知道,他们是否正在目睹一种新的智能诞生。今年3月,研究人员发表了长达155页的研究论文,认为该系统是向通用人工智能(AGI)迈出的一步。AGI可以做人类大脑能做的任何事情。
微软是第一家发表如此大胆言论的大型科技公司,引发了科技界最激烈的争论之一:科技行业是否正在打造类似人类智能的东西?还是业内某些聪明人让自己的想象力发挥了最大的作用?
微软研究主管彼得李说:“一开始我很怀疑,后来就演变成了沮丧、烦恼甚至恐惧的感觉。你会想:这该死的东西到底是从哪里来的?”
微软的研究报告被称为“通用人工智能的火花”,它触及了技术专家几十年来始终在努力解决和担心的问题的核心。如果他们制造出能像人类大脑那样工作、甚至更好的机器,它可能会改变世界,但也可能带来危险。
这也可能是无稽之谈,宣称构建出AGI的计算机科学家可能会受到多方质疑。一个研究人员认为的智力标志很容易被另一个人打破,辩论听起来更适合哲学领域,而不是计算机实验室。去年,谷歌解雇了一名声称类似人工智能系统具有感知能力的研究人员,这甚至超越了微软的界限。有感知能力的系统不仅仅具有智能,它还能够感知周围世界正在发生的事情。
但有些人认为,在过去一年左右的时间里,这个行业慢慢地出现了某个无法解释的方向:一种新的人工智能系统正在提供类似真人给出的答案和想法,而这些答案和想法并没有经过事先编程。
微软已经重组了几个研究实验室,纳入了多个致力于探索这一想法的团队。其中之一由微软AGI论文的主要作者 塞巴斯蒂安布贝克管理。
大约五年前,谷歌、微软和OpenAI等公司开始构建大型语言模型(LLM),这些系统通常需要花费数月时间来分析大量数字文本,包括书籍、维基百科文章和聊天记录。通过精确定位文本中的模式,它们学会了自己生成文本,包括学期论文、诗歌和计算机代码。它们甚至可以与人交谈。
微软研究人员正在使用OpenAI的GPT-4技术,它被认为是这些系统中最强大的。微软是OpenAI的亲密合作伙伴,已经向这家旧金山初创公司投资了130亿美元。
这些研究人员中包括38岁的法国侨民、前普林斯顿大学教授布贝克。他和同事们做的第一件事就是让GPT-4给出数学证明,证明有无限多个素数。无论是在数学上还是在语言上,对这项技术的演示都给人留下深刻印象,以至于布贝克发现很难理解自己在说什么。他说:“当时我就想,这是怎么回事?”
几个月来,布贝克教授等人记录了这个系统所表现出的复杂行为,他们认为它展示了对人类概念和技能“深刻而灵活的理解”。彼得李称,当人们使用GPT-4时,他们“对它生成文本的能力感到惊讶”,但事实证明,它在分析、综合、评估和判断文本方面比生成文本要好得多。
当他们要求系统用一种叫做TiKZ的编程语言绘制独角兽时,它立即生成了可以绘画独角兽的程序。当他们删除了绘制独角兽角的代码,并要求系统修改程序以再次绘制独角兽时,它又成功了。
研究人员要求系统编写一个程序,根据某个人的年龄、性别、体重、身高和血液测试结果来确定他是否有患糖尿病的风险。他们要求它以苏格拉底的语气写一篇关于LLM可能被滥用和引发危险的论文。
这种系统做这一切的方式似乎表明,它对政治、物理、历史、计算机科学、医学和哲学等不同领域的理解,同时结合了自己所学的知识。布贝克教授说:“所有这些都是我认为它做不到的事情。但事实证明,它可以做其中很多事情。”
有些人工智能专家认为,微软的论文是一种机会主义尝试,试图对一项没有人完全理解的技术作出重大声明。研究人员还认为,通用人工智能需要熟悉物理世界,而GPT-4理论上不具备这种能力。
卡内基梅隆大学研究员兼教授马丁萨普表示:“《通用人工智能的火花》是某些大公司将研究论文格式融入公关宣传的一个例子。他们在论文的引言中承认,他们的方法是主观的、非正式的,可能不符合严格的科学评估标准。”
布贝克教授和彼得李都称,他们不确定如何描述这个系统的行为,最终决定用“通用人工智能的火花”来描述,因为他们认为这将吸引其他研究人员的想象力。
由于微软的研究人员正在测试GPT-4的早期版本,该版本没有进行微调,以避免仇恨言论、错误信息和其他不想要的内容,因此该论文的说法无法得到外部专家的证实。微软表示,它向公众提供的系统不如他们测试的版本那样强大。
有时像GPT-4这样的系统似乎模仿了人类的推理能力,但有时它们似乎非常迟钝。“这些行为并不总是一致的,”一位微软研究员说。
加州大学伯克利分校人工智能研究小组成员、心理学教授艾莉森戈普尼克表示,像GPT-4这样的系统无疑是强大的,但目前还不清楚这些系统生成的文本是人类推理还是常识组合的结果。
戈普尼克博士说:“当我们看到一个复杂的系统或机器时,我们会把它拟人化。无论是否身在人工智能领域,每个人都这样做。但把人工智能和人类进行不间断的比较,并不是正确的思考方式。”(金鹿)