展会信息港展会大全

OpenAI推出SimpleQA:专治大模型“胡说八道”,实测o1和Claude3.5都不及格
来源:互联网   发布日期:2024-10-31 18:40:09   浏览:0次  

导读:划重点01OpenAI推出SimpleQA,一个专门检测大模型回答事实性问题的准确性的事实性基准测试,已正式开源。02SimpleQA包含4000道由人类编写、清晰无歧义的事实性问题,挑战性大,连o1-preview和Claude Sonnet 3.5的准确率都不到50%。03所有问题都经过精心设计,参考答案经过两位独立标注员的验证,确保准确可靠,且具有时效性。04除此之外,SimpleQA还可以测量大模型的“校准”程 ......

划重点

01OpenAI推出SimpleQA,一个专门检测大模型回答事实性问题的准确性的事实性基准测试,已正式开源。

02SimpleQA包含4000道由人类编写、清晰无歧义的事实性问题,挑战性大,连o1-preview和Claude Sonnet 3.5的准确率都不到50%。

03所有问题都经过精心设计,参考答案经过两位独立标注员的验证,确保准确可靠,且具有时效性。

04除此之外,SimpleQA还可以测量大模型的“校准”程度,即模型“知之为知之,不知为不知”的能力。

05SimpleQA的主要局限性在于其范围,只能在具有单一可验证答案的简短事实查询环境下测量事实性。

以上内容由大模型生成,仅供参考

OpenAI推出SimpleQA:专治大模型“胡说八道”,实测o1和Claude3.5都不及格

AI 大模型经常“一本正经地胡说八道”,这个问题 OpenAI 也头疼!现在,他们祭出了新武器 SimpleQA,并已正式开源,这是一个全新的事实性基准测试,专门用来检测大模型回答事实性问题的准确性!OpenAI 的研究科学家 Jason Wei 表示,由于此前一直缺乏一个好的事实性基准测试,所以他们团队决定自己动手,创建一个简单、可靠、易用的评估工具,供所有 AI 研究人员使用

OpenAI推出SimpleQA:专治大模型“胡说八道”,实测o1和Claude3.5都不及格

SimpleQA 究竟有何过人之处?总结起来有三大特点:设置简单到爆:包含 4000 道由人类编写、清晰无歧义的事实性问题,每个问题都只有一个无可争议的正确答案。模型的回答会被自动评分器评为“正确”、“错误”或“未尝试”

OpenAI推出SimpleQA:专治大模型“胡说八道”,实测o1和Claude3.5都不及格

挑战性大,前沿模型也跪了:SimpleQA 对目前最先进的大模型也构成了巨大挑战!连 o1-preview 和 Claude Sonnet 3.5 的准确率都不到 50%!

OpenAI推出SimpleQA:专治大模型“胡说八道”,实测o1和Claude3.5都不及格

OpenAI推出SimpleQA:专治大模型“胡说八道”,实测o1和Claude3.5都不及格

参考答案准确度高,经得起时间考验:所有问题都经过精心设计,参考答案经过两位独立标注员的验证,确保准确可靠。而且,这些问题的设计也考虑到了时效性,即使 5 年或 10 年后,SimpleQA 仍然是一个有用的基准测试,相当耐用!

SimpleQA是如何构建的?OpenAI雇佣了AI训练师从网上收集问题和答案,并制定了严格的标准:答案必须唯一、准确、不会随时间变化,而且大多数问题必须能诱导GPT-4o或GPT-3.5产生“幻觉”。为了保证质量,还有第二位AI训练师独立回答每个问题,只有两位训练师答案一致的问题才会被收录。最后,还有第三位训练师对1000个随机问题进行验证,最终估算出数据集的固有错误率约为3%

如何用SimpleQA比较大模型?用一个经过prompt的ChatGPT分类器对模型的答案进行评分,分为“正确”、“错误”和“未尝试”三种。目标是尽可能多地正确回答问题,同时最小化错误答案的数量。测试结果显示,o1-preview效果最佳。小模型的正确率不如大模型,这可能是因为小模型的知识储备较少。o1-preview和o1-mini更倾向于选择“未尝试”,这可能是因为它们能够利用推理能力识别自己不知道答案的情况,而不是胡编乱造

SimpleQA还能干啥?除了评估事实性,SimpleQA还可以用来测量大模型的“校准”程度,也就是模型“知之为知之,不知为不知”的能力。

置信度与准确率:通过让模型给出答案的同时给出置信度,然后比较置信度和实际准确率间的关系,就能看出模型的校准程度。结果表明,模型普遍高估了自己的置信度,还有很大的改进空间。o1-preview比o1-mini校准程度更好,GPT-4比GPT-4-mini校准程度更好,这与之前的研究结果一致,即更大的模型校准程度更好

OpenAI推出SimpleQA:专治大模型“胡说八道”,实测o1和Claude3.5都不及格

答案频率与准确率:另一种测量校准的方法是将同一个问题问模型100次。由于语言模型在重复尝试时可能会产生不同的答案,因此可以评估特定答案的出现频率与其正确性是否相符。更高的频率通常表明模型对答案更有信心。o1-preview 在这方面表现最好,其答案的频率与准确率基本一致。与通过置信度判断的校准结果类似,o1-preview 比 o1-mini 的校准程度更好,GPT-4 比 GPT-4-mini 的校准程度更好

OpenAI推出SimpleQA:专治大模型“胡说八道”,实测o1和Claude3.5都不及格

限制SimpleQA 是评估前沿模型事实性的一个简单但具有挑战性的基准。SimpleQA 的主要局限性在于其范围--虽然 SimpleQA 非常准确,但它只能在具有单一可验证答案的简短事实查询这一受限环境下测量事实性。提供符合事实的简短回答的能力是否与撰写包含大量事实的冗长回答的能力相关,这仍然是一个有待研究的问题

开源地址:

https://github.com/openai/simple-evals/

参考:

https://openai.com/index/introducing-simpleqa

SimpleQA Paper:

https://cdn.openai.com/papers/simpleqa.pdf

星标AI寒武纪,好内容不错过

用你的在看告诉我~

赞助本站

AiLab云推荐
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港