展会信息港展会大全

AI会用电脑了,Anthropic重新定义人机交互的未来
来源:互联网   发布日期:2024-10-25 08:45:48   浏览:1380次  

导读:划重点 01Anthropic发布了名为computer use的功能,允许AI使用电脑并进行屏幕截图、鼠标点击等交互操作。 02该功能目前处于实验阶段,已在上游API、亚马逊Bedrock和Google Cloud上提供。 03Anthropic的Claude 3.5 Sonet模型在代理编码任务上表现出色,得分从...

划重点

01Anthropic发布了名为“computer use”的功能,允许AI使用电脑并进行屏幕截图、鼠标点击等交互操作。

02该功能目前处于实验阶段,已在上游API、亚马逊Bedrock和Google Cloud上提供。

03Anthropic的Claude 3.5 Sonet模型在代理编码任务上表现出色,得分从92%提高到93.7%。

04除此之外,Claude 3.5 Hiu模型在代理编码任务上的表现更好,速度更快,且更便宜。

05Anthropic正致力于教会模型通用计算机技能,使其能够使用各种为人类设计的标准工具和软件程序。

以上内容由腾讯混元大模型生成,仅供参考

Anthropic 这两天发布了名为“computer use”的功能。就是通过 API,用户现在可以本地运行脚本,这个脚本无论使用的是 TypeScript 还是 Python都可以,当然,这个脚本也可以是AI生成的。然后他开始截取屏幕截图,移动鼠标到屏幕上的指定位置,点击并交互,就像使用鼠标和键盘一样。这意味着,AI可以使用电脑了,你可能觉得这没什么,但我认为这个新功能将彻底改变我们与计算机的交互方式。

现在市面上这样的工具也不少,比如UI Path,这样的好处显而易见。虽然有一些开源项目也试图实现类似的功能,但 Anthropic 将其直接集成到其 API 中,这使我们能够以全新的方式思考如何使用计算机。要知道,现在的互联网实在太庞大了,没有一个统一的API来处理各种交互,我们的LLM应用里要设置那么多函数调用也挺麻烦的。而且现在的网站千奇百怪,要找到一个通用的解决方案真不容易。

这项功能能够使用本地应用程序也能用浏览器,潜力很大,可以带来很多新玩法。虽然现在各种LLM应用都在搞网页应用,但我觉得这个功能可能会开创一个桌面应用的新时代。如果我们能做出一个这样能通用控制电脑的应用,那绝对能激发出很多我们现在想不到的创意用法。在这里我也要特别提醒一下各位,Anthropic在道德审查方面也是非常严格的,前些日子我想做一个在社交媒体上自动点赞的功能,曾经想过截图给Claude让他给我返回点赞按钮的坐标值。结果他给我返回,大意是说这样是违反社交媒体规定的,是违反道德的。所以大家应该尽量早的试用,很多情况理论是通的,但道德审查过不了。这一点一定要注意。

在 Anthropic 最近发布的博客文章中,他们介绍了“computer use”功能,以及升级后的 Claude 3.5 Sonet 和新模型 Claude 3.5 Hiu。虽然许多人可能期待 Claude 3.5 Opus 的出现,但博客文章中并没有提到它。

“computer use”功能目前仍处于实验阶段,处于测试版,Anthropic 发布了早期原型以收集开发者的反馈,并预计未来会改进其功能。这项功能现已在 Anthropic API、亚马逊 Bedrock 和 Google Cloud 上提供。Claude 3.5 Hiu 预计将在本月晚些时候发布。

在功能方面,许多人可能会关注 Claude 3.5 Sonet 模型,它在许多任务中表现出色,包括编码。在 HumanEval 基准测试中,Claude 3.5 Sonet 的得分从之前的 92% 提高到 93.7%。在其他所有领域,包括代理编码,我们都看到了性能的提高。代理编码的得分从之前的 33.4% 提高到 49%。

博客文章中提到的一个值得注意的要点是,在代理编码评估基准测试中,Claude 3.5 Sonet 的得分高于所有公开可用的模型,包括 OpenAI 的 GPT-4 预览模型。Claude 3.5 Hiu 也是一个非常出色的模型,如果你以前没有使用过它,建议你尝试一下。此外,Claude 3.5 Hiu 模型在代理编码任务基准测试中的表现甚至比之前的 Claude 3.5 Sonet 版本还要好。它不仅是一个更便宜的模型,而且速度也更快,并且在代理编码任务上已经超越了之前的 Claude 3.5 Sonet。

虽然模型有所更新,但最重要的用例还是前面提到的“computer use”功能。这项功能将为我们带来许多新的应用。它跟之前发布的 Open Interpreter 类似,Open Interpreter 是一个框架,它允许用户通过利用他们喜欢的任何模型来控制他们的计算机。它也类似于 Muon,Muon 是一家专注于网络导航的公司,它能够控制并与网络交互,与 Anthropic 今天发布的功能类似。

Anthropic 在博客文章中提到,他们正在教会模型通用计算机技能,使它能够使用各种为人类设计的标准工具和软件程序。我认为这是一个非常重要的观点,因为之前大多数代理工具都要用函数调用或者某种框架来调用API和交互,搞起来特别麻烦。要是能有个代理,会像人一样在网上浏览、搜索、用各种程序,那就完全是另一种思路了。看Anthropic这次的发布,他们好像更倾向于让代理像真人那样上网,而不是搞那些需要调API、还得设计特定工作流程的专有模型。

模型可以执行类似于人类使用计算机的方式来执行操作,例如滚动、拖动、缩放、输入和点击。它将截取屏幕截图,发送回复,并能够像真人一样控制计算机。

设置起来跟用Anthropic API差不多简单,主要区别就是你给的工具是用来控制电脑的。你能用到电脑、文本编辑器、命令行这些工具。比如你可以让它"把猫的图片保存到桌面",或者用beta版功能运行Python、TypeScript或者Shell脚本。只要把API密钥粘贴进去就能开始玩了。

如果你要设置一个有交互的应用程序,你得设置个循环才能好好用这个功能。在开始使用“computer use”功能时,有一个很好的文档,它会向你提供“computer use”工具和用户提示,然后 Claude 将决定使用哪个工具。

Anthropic 将其称为“Agent Loop ”,它将提取工具输入,在计算机上评估工具,然后返回结果。这个循环将持续进行,直到任务完成。

赞助本站

AiLab云推荐
推荐内容
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港