为了防范人工智能(AI)带来的重大风险,OpenAI决定赋予董事会在安全监管方面更高的权力,给上月刚刚在“宫斗”中获胜的CEO Sam Altman上“紧箍咒”。
OpenAI美东时间12月18日周一发布一系列指引,旨在“跟踪、评估、预测和防范日益强大的(AI)模型带来灾难性风险”。OpenAI的所谓“灾难性风险”是指,“可能导致数千亿美元经济损失或导致多人严重伤害或死亡的任何风险”。
这个27页篇幅的指引名为“准备框架”,其中提出,即使公司领导层、即CEO或领导层指定的人认为将发布的AI模型是安全的,公司董事会也可以选择推迟发布该模型。其认为,虽然OpenAI 的CEO将负责日常工作的决策,但董事会将了解有关风险的发现,并可以否决CEO的决定。
除了对公司领导层和董事会的权限规定,OpenAI的准备框架主要建议,使用矩阵方法,记录多个类别的前沿AI模型所带来的风险水平,包括行为不端者用AI模型创建恶意的软件、发起社会工程攻击,或者传播有害的核武或生物武器信息。
具体来说,OpenAI定义了网络安全、CBRN(化学、生物、放射、核威胁)、说服和模型自主四个类别的风险阈值,在针对每个风险类别实施缓解风险措施之前和之后,OpenAI 都会将每种风险分为低、中、高或严重四个类级别。
OpenAI规定,只有风险缓解后评级为“中”或以下级别的AI模型,才能部署,只有风险缓解后评级为“高”或以下的模型,才能进一步开发,如果不能将风险降低到严重以下级别,公司将停止开发模型。对于缓解风险以前被评为高风险或严重风险的模型,OpenAI还将实施额外的安全措施。
OpenAI将处理安全问题的工作人员分为三个团队。其中,安全系统团队专注于减轻和解决GPT-4等当前的产品带来的风险,超对齐团队关注能力超越人类的未来系统带来的问题,还有一个名为准备的新团队,由将从麻省理工学院(MIT)离职的该校电气工程与计算机科学系(EECS)教授Aleksander Madry领导。
新团队将在强大的模型开发和实施时对其进行评估,将专门监督有关安全方面决策的技术性工作和操作架构,它将推动技术工作,从而审查前沿模型能力的限制、进行评估并综合相关报告。
Madry称,他的团队将反复评估OpenAI最先进的、尚未发布的AI模型处于何种风险级别,每月向OpenAI内部的安全顾问组织(SAG)发送报告,SAG将分析Madry团队的工作,并向CEO Altman和公司董事会提出建议。
本周一公布的指引文件说明,Altman和他的领导班子可以根据这些报告决定是否发布新的AI系统,但董事会有权推翻他们的决定。
包括Madry在内,目前他的团队只有四人,他在积极招募忍受,预计团队成员会达到15到20人,和现有安全团队以及超对齐团队的人数相当。
Madry希望其他AI公司采用类似的方式评估旗下模型的风险,并预计这可能成为监管的典范。