OpenAI上线深度研究功能，人类终极考试的表现超过DeepSeek R1-人工智能应用-人工智能实验室AiLab-中国人工智能网-Powered by AiLab.cn

OpenAI上线深度研究功能，人类终极考试的表现超过DeepSeek R1

来源：互联网发布日期：2025-02-04 18:04:49 浏览：153次

导读：腾讯科技《AI未来指北》特约作者晓静无忌编辑郑可君北京时间2月3日上午，OpenAI正式推出面向深度研究领域的智能体产品深度研究（Deep research）功能。曾经一位经验丰富的行业分析师需要花费数天甚至数周才能完成的专业研究报告，现在借助这项突破性功能，只需5-30分钟就能完成。这个堪比"AI研究员"的功能，能够自主分析复杂的专业信息，实时查找和综合数百个在线资源， ......

OpenAI上线深度研究功能，人类终极考试的表现超过DeepSeek R1

科技新闻《AI未来指北》特约作者晓静无忌

编辑郑可君

北京时间2月3日上午，OpenAI正式推出面向深度研究领域的智能体产品深度研究（Deep research）功能。

曾经一位经验丰富的行业分析师需要花费数天甚至数周才能完成的专业研究报告，现在借助这项突破性功能，只需5-30分钟就能完成。这个堪比"AI研究员"的功能，能够自主分析复杂的专业信息，实时查找和综合数百个在线资源，最终生成一份专业水准的完整报告。

OpenAI上线深度研究功能，人类终极考试的表现超过DeepSeek R1

这个强大功能由即将推出的OpenAI o3模型的特制版本提供支持，该版本经过专门优化，适配网页浏览和数据分析场景。它能够运用推理能力，在互联网上搜索、解读和分析海量的文本、图像和PDF文件，并能根据所遇到的信息灵活调整研究方向。

值得注意的是，在对这个智能体的能力评测中，OpenAI特别对比了DeepSeek R1，称在Humanity’s Last Exam（简称HLE）测试中，深度研究所使用的模型在专家级问题上达到了26.6%的准确率，刷新之前的18.2%的记录。

相比之下，DeepSeek的R1模型的准确率是9.4%。

OpenAI反击DeepSeek！刚发布新模型Deep research，刷新最高记录

这一测试由全球众多领域专家共同开发，目的是评估人工智能在广泛学科领域的表现，被视为衡量人工智能学术能力的前沿基准。该测试包含超过3000道多项选择题和简答题，涵盖从语言学到火箭科学、从古典学到生态学等100多个学科领域。

由此也可以看出，DeepSeek确实让OpenAI感觉到压力不小。

科技新闻综合了OpenAI的深度研究介绍文档及技术解读直播，梳理了本次发布最值得关注的技术要点。

OpenAI上线深度研究功能，人类终极考试的表现超过DeepSeek R1

一、化身专业研究员，擅长寻找冷门信息并全网整合深度研究功能专为金融、科学、政策、工程等领域的高强度知识工作者设计，此类人群需要全面、精准且可靠的调研成果。同时，它也适用于在购买汽车、家电、家具等需要谨慎研究的产品时，希望寻求高度个性化建议的消费者。

1、深度研究的输出附有清晰的引用和对其思考过程的总结，便于用户查阅和验证信息。

2、它尤其擅长寻找冷门、非直观信息，通过一次查询即可帮助用户卸载并加速复杂、耗时的网络调研任务，从而节省时间。

3、深度研究能够独立从网络上发现、推理并整合各类见解。它在训练过程中采用了与OpenAI o1（OpenAI的首个推理模型）相同的强化学习方法，并针对浏览器和Python工具的使用进行了真实任务训练。

虽然o1在编程、数学等技术领域表现出色，但许多现实挑战需要从多样化的在线资源中广泛收集上下文信息。

深度研究在此基础上进一步拓展了推理能力，弥合了这一差距，使其能够应对人们在工作和日常生活中所面临的各种问题。

在ChatGPT中，用户可以选择消息框中的“深度研究”选项并输入问题。用户可以向ChatGPT说明需求，也可以附件或电子表格，来增加问题的背景信息。一旦开始运行，侧边栏会显示已采取的步骤和使用的来源的总结。

深度研究完成工作可能需要5到30分钟，具体时间取决于任务的复杂性和所需的信息量。在此期间，用户可以离开或从事其他任务一旦研究完成，用户将收到通知。最终输出将以聊天中的报告形式呈现。

在未来几周内，OpenAI还将在这类报告中增加嵌入式图像、数据可视化和其他分析结果，以提供更多的清晰度和背景信息。

与深度研究相比，GPT-4o更适合实时、多模态的对话。

对于需要深入探索和详细分析的多方面、特定领域的复杂问题，深度研究能够进行广泛的调研并为每个观点提供引用，这与简单的快速总结不同，它能够提供一份经过充分记录和验证的详细答案，可以直接作为工作成果使用。

二、端到端强化学习是重点，多模块协同工作

深度研究是通过端到端强化学习，在多个领域中针对复杂的网络浏览和推理任务进行训练的。

通过这些训练，它学会了如何规划并执行多步骤的操作流程，以找到所需的数据，并在必要时进行回溯以及对实时信息做出反应。

该模型还能够浏览用户上传的文件，利用Python工具绘制并迭代图形，将其生成的图形以及从网站获取的图像嵌入到回答中，并引用其来源中的具体句子或段落。

这种创新的学习方式打破了传统机器学习需要人为划分训练阶段的限制，使模型能够像人类研究者一样进行整体性的思考和决策。

在技术架构层面，Deep Research由四个协同工作的核心模块构成，形成了一个完整的智能研究系统。

第一，是信息发现模块，类似于系统的"探索者"。

相关热词： openai deepseek 腾讯 deep 考试

OpenAI上线深度研究功能，人类终极考试的表现超过DeepSeek R1
来源：互联网发布日期：2025-02-04 18:04:49 浏览：153次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

OpenAI上线深度研究功能，人类终极考试的表现超过DeepSeek R1 来源：互联网 发布日期：2025-02-04 18:04:49 浏览：153次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

OpenAI上线深度研究功能，人类终极考试的表现超过DeepSeek R1
来源：互联网发布日期：2025-02-04 18:04:49 浏览：153次