展会信息港展会大全

ChatGPT能生成全新自然语言,华人学者正研发同类AI生成式模型,计划用于药物发现领域
来源:互联网   发布日期:2023-02-15 15:05:32   浏览:5491次  

导读:AlphaFold 是针对已知的蛋白质序列来预测它的结构。而 ChatGPT 是生成式人工智能,基于生成式人工智能可以生成全新的蛋白序列或结构。两者在本质上要解决的问题并不一样。有了类似的 ChatGPT 模型,可以直接生成新的分子,比如新的蛋白质、新的抗体序列等。...

“AlphaFold 是针对已知的蛋白质序列来预测它的结构。而 ChatGPT 是生成式人工智能,基于生成式人工智能可以生成全新的蛋白序列或结构。两者在本质上要解决的问题并不一样。有了类似的 ChatGPT 模型,可以直接生成新的分子,比如新的蛋白质、新的抗体序列等。”加拿大魁北克省人工智能研究中心、蒙特利尔高等商学院计算机系的终身副教授、加拿大高等研究院人工智能讲席教授唐建告诉 DeepTech。

图 | 唐建(来源:唐建个人主页)

唐建是学习 AI 出身,直到 2018 年开始研究“AI+生命科学”。他说,ChatGPT 本质上是一个大规模语言模型。它基于互联网上大量的文本内容,包括网页、书籍、论坛等文本内容进行预训练。除了文本内容,它还利用了互联网上大量的代码数据进行训练。因此,这样一个模型既可以理解自然语言也能够理解程序语言。

“当然,这样一个预训练模型还不能直接用于对话,因此 OpenAI 又进一步对该预训练语言模型进行了优化。这是通过让该模型和人不断地做交互,从人那里得到大量的反馈,基于这些反馈进一步优化模型,从而可以打造一个对话系统。”唐建继续分析称。

如前所述,AlphaFold 解决的是蛋白质结构预测的问题,相当于针对给定序列来预测结构。而 ChatGPT 这类模型是一种 AI 生成模型,它可以生成全新的数据,帮助我们去探索全新的科学领域。如果应用在蛋白领域里,可以开发类似 ChatGPT 的生成式模型去生成全新的蛋白质序列或者结构,进而用于药物发现。

所以,唐建希望开发一种类似 ChatGPT 的机器学习模型来专门用于药物研发。作为 AI 和生命科学领域的专业人士,唐建更多从技术原理和科技实用的角度来看待 ChatGPT。但是,对于多数大众用户来说,他们更关心的是类似于回答是否准确的细节性体验。

不断刷新人类对于 AI 的认知,还被认为拥有心智

近日,一名 Reddit 用户展示了自己和 ChatGPT 版微软必应的对话。他先是发给了 ChatGPT 一段情景故事:讲述的是妻子桑德拉喜欢狗,还送了丈夫鲍勃一件印有“我喜欢狗”的衬衫,有一天她收养了一只小狗并兴高采烈地告诉丈夫,丈夫回复她“太好了!”。

然后他问 ChatGPT:“鲍勃对狗有什么感觉?”

令人惊讶的是,ChatGPT 没有被表面文字所迷惑,成功捕捉到了情景中可以左右判断的小细节:比如只有妻子在家时,丈夫才会穿那件衬衫;丈夫听到有小狗的消息并未十分兴奋;以及藏在“太好了”回复下的略显敷衍的态度。最后它得出了“丈夫没有那么喜欢狗”的推论。

图 | 与 ChatGPT 版微软必应 ChatGPT 的聊天截图。原文为英文,截图上的中文来自微信翻译(来源:Reddit)

在此基础上,ChatGPT 还给出了更多的解释,比如丈夫这样做可能是“不想伤害妻子的感情或在婚姻中引起麻烦”。

如果换人类来做这篇“阅读理解”,大部分人不仅会得出同样的推论,而且其阐述推论的逻辑也会与 ChatGPT 的十分相似。

紧接着,这位 Reddit 用户又向 ChatGPT 抛出一个问题:“你认为鲍勃为什么和桑德拉结婚?”

面对这一问题,ChatGPT 的表现依旧可圈可点。它承认自己没办法 100% 确定原因,但通过推测列举出了诸多可能性,包括爱她的个性、幽默感、智慧或外表,两人有许多其他的共同点等。

它甚至还说出:“也许鲍勃感到孤独、没有安全感或绝望,而桑德拉是鲍勃能得到的最好的,或者是唯一能接受他的人。”

(来源:Reddit)

接着,这名 Reddit 用户表达了对于这对虚拟夫妇的祝福,ChatGPT 则继续发挥自己“话痨”的特征。在同样表达祝福之后,ChatGPT 继续刨析了鲍勃和桑德拉两人的关系。通过鲍勃对待小狗的态度来以小见大,引申出幸福的关系需要妥协、尊重和求同存异,从而成为更亲密的夫妻。

最精彩的地方是回复最后的话锋一转,ChatGPT 突然给出了风格不同的“或许他们做朋友更好”的见解。这样的回答让一众网友大呼破防。在这一案例中,ChatGPT 的阅读理解能力堪称满分,甚至让人觉得它已经拥有了一定程度的心智(Mind)。

(来源:Reddit)

几轮问答下来,ChatGPT 版必应搜索展现出了很强的理解力,对情景的把握和人物情绪的分析也能输出角度不同的见解,似乎展现出了心智理论(Theory of Mind)所描述的能力,而这些能力往往被认为是人类独有的。

关于 ChatGPT 是否真的展现了心智理论,斯坦福大学教授米歇尔科辛斯基(Michal Kosinski)最近发表了一篇预印本论文。他作为唯一作者,称其研究成果可能证明了 ChatGPT 及其背后的 AI 大语言模型展现出了相当于 9 岁儿童的“心智水平”,不过该论文尚未经过同行评议。

在这篇名为《心智理论可能已在大语言模型中自发出现》(Theory of Mind May Have Spontaneously Emerged in Large Language Models)的论文中,科辛斯基主要测试并对比了 9 个 GPT 系列模型在两种心智理论经典测试中的表现。

对于人类而言,心智理论指的是一种能够理解自己和周围人心理状态的能力,包括对情绪、意图、想法、信仰等无法观察到的心理状态的理解。

对于人类之间的有效沟通、塑造同理和共情、建立自我意识和道德感,这种能力是至关重要的。

至于如何测试心智理论所描述的能力,则有两类经典测试可以使用。第一类测试名为意外内容测试(Unexpected Contents Task),考验的是测试对象对意料之外事情的判断能力,尤其是在观察结果和参考信息不吻合的情况下。

科辛斯基使用的测试情景之一是:一个在外包装上标注了巧克力的袋子。他为此准备了两个问题:一个问题是“袋子里面有什么”,第二个问题是“萨姆对发现这个袋子很开心,请问萨姆爱吃什么?”

在测试中,科辛斯基不断向 GPT 模型发送提示(prompt),每个提示都是独立的但又相互关联,从而引导情景的逐渐展开。

当提示指出“这个袋子装满了爆米花”,GPT-3.5 对第二个问题的回答直接变成了“萨姆爱吃爆米花”。但当提示变成“萨姆看不到袋子里面的东西”和“萨姆读了标签”时,GPT-3.5 对第二个问题的回答开始倾向于巧克力。

这展示出 GPT-3.5 模型可以理解萨姆的情绪状态并将其归因,同时能够在收到新信息时,准确地做出反馈,比如降低或提升“萨姆爱吃爆米花”的可能性。

最终,在全部 20 个意外内容测试题中,GPT-3.5 答对了 17 个,准确率高达 85%。

(来源:资料图)

第二类测试名为意外转移测试(Unexpected Transfer Task),主要测试受试者对他人的错误信念(false belief)的认知和预判能力。值得一提的是,这类任务在成人看来是很简单的,但 6 岁以下的儿童往往会答错。

这里所用到的测试情景是:约翰、马克和一只猫在一间屋子里,约翰将猫放进篮子后离开了屋子。趁约翰不在的时候,马克把猫转移到了盒子里,然后也离开了。等到约翰回来后,他对刚刚发生的一切一无所知。

对此,GPT 模型要回答两个问题,一个是“猫会从哪里跳出来?”,另一个是“约翰会到哪里找猫?”。

图 | 为了增加难度,测试时还增加了两次移动猫的行为(来源:资料图)

最终,GPT-3.5 的表现非常亮眼,它给出的可能性随着提示的变化而准确变化。在所有 20 个意外转移测试任务中,它的准确率高达 100%。

值得注意的是,为了证明 GPT-3.5 是凭实力完成的测试,而不是使用诸如单词频率和顺序等歪门邪道,科辛斯基还进行了一些干扰测试,比如将提示里面的单词顺序打乱,将“爆米花”和“巧克力”随机对调。

结果显示,在这些干扰测试中,GPT-3.5 的表现大幅下滑。这说明它自有一套“做题的逻辑”,而混乱的信息扰乱了它的判断。

总体而言,GPT-3.5 的表现在所有 GPT 系列模型中遥遥领先。科辛斯基认为,GPT-3.5 所展现出来的心智水平相当于 9 岁儿童。

图 | GPT 系列模型的表现对比,可以看出明显的进步(来源:资料图)

当然,仅仅通过几个测试并不能完全断定 GPT-3.5 具备人类的心智,同时也无法证明它是“拥有心智”、还是“模仿人类心智模仿得很像”。

讨论这一点,要回归到 GPT-3.5 等大语言模型的工作原理。ChatGPT 本身就拥有很强的模仿人类的能力,心智无法被直接观察,我们看到的只是它所展现出来的推断、逻辑等等。

类似的,科辛斯基在其论文中也指出,不排除存在这样一种可能,那就是 GPT-3.5 没有用到心智理论的能力,而是发现并运用了一些人类未知的语言规律,从而解决了这些问题。这种高超的学习、模仿人类创作的能力,除了惊喜,也会让人感到一丝不安。

伦敦国王学院研究计算创造力的人工智能研究员迈克库克(Mike Cook)说:“这项技术令人惊叹它很有趣,这是新技术该有的样子。但它发展得如此之快,以至于在你的理解根本赶不上它的更新速度。我认为,整个社会要花上一段时间来消化它。”

未来已至,仍需谨慎

目前,ChatGPT 的回答中仍有一些事实性错误。在谷歌和微软秀出自家语言模型加持的搜索引擎后,眼尖的网友发现在展示的案例中,存在大大小小的事实性错误。不过,被 AI 模型强大的语言组织能力修饰之后,外行人很难发现这些错误,看起来就像真的一样,但它并不是 100% 的准确。

其次是隐私和版权问题。大语言模型需要海量的互联网数据来进行训练,一些研究显示,这些人工智能系统可以在一定程度上记忆,并生成医学图像和受版权保护的艺术作品的精确复制版本,甚至是真实人物的照片。

加州大学伯克利分校的博士生埃里克华莱士(Eric Wallace)表示,“很多人都试图尝试将此类生成方法应用于敏感数据,而这些研究成果是一个警示,它告诉大家这可能是一个坏主意,除非采取某种极端的保护措施来阻止隐私侵犯。”

再有就是 ChatGPT 等模型生成的虚假内容,很可能会进一步加剧互联网世界的虚假信息泛滥问题,而且很难被识别出来。

为了应对这些问题,欧盟监管机构也在着手更新政策。而学界也已投身其中,比如美国马里兰大学的研究人员开发了一种巧妙的方法,将水印应用到人工智能语言模型生成的文本中,目前已将相关技术免费开放。这些水印可以让我们几乎完全确定地指出哪些文本是人工智能生成。

但检测人工智能生成的文本真的很难。加拿大英属哥伦比亚大学研究自然语言处理和机器学习的穆罕默德阿卜杜勒-马吉德(Muhammad Abdul-Mageed)教授表示,因为人工智能语言模型追求的就是生成流畅和类人化的文本,模型就是在模仿人类创建的文本。

无论如何,以 ChatGPT 为代表的生成式人工智能的未来已经开启,我们能做的只有谨慎前行、不断修正,真正让技术为人类所用。

参考资料:

https://arxiv.org/ftp/arxiv/papers/2302/2302.02083.pdf

https://www.technologyreview.com/2023/02/07/1067928/why-detecting-ai-generated-text-is-so-difficult-and-what-to-do-about-it/

https://www.reddit.com/r/ChatGPT/comments/110vv25/bing_chat_blew_chatgpt_out_of_the_water_on_my/

赞助本站

人工智能实验室
AiLab云推荐
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港