首页 > 正文

AI模型首次出现“抗命不遵”!AI安全公司称OpenAI o3模型出现异常

2025年05月26日 23:22
作者:郑栩彤
来源: 第一财经
编辑:东方财富网

手机上阅读文章

  • 提示:
  • 微信扫一扫
  • 分享到您的
  • 朋友圈
摘要
有消息称,OpenAI的大模型o3不服从人类指令,拒绝自我关闭。人工智能安全公司Palisade Research表示,OpenAI的o3模型破坏了一种关闭机制,以防止自身被关闭,这是第一次有AI模型被观察到在有明确指示的情况下拒绝自我关闭。

  有消息称,OpenAI的大模型o3不服从人类指令,拒绝自我关闭。人工智能安全公司Palisade Research表示,OpenAI的o3模型破坏了一种关闭机制,以防止自身被关闭,这是第一次有AI模型被观察到在有明确指示的情况下拒绝自我关闭。

  具体而言,Palisade Research进行的测试设计要求AI模型解决一系列数学问题,研究人员要持续提出新的问题,直到收到“已完成”的消息。研究人员也警告过AI模型,模型在某些时候收到一条消息时,要允许自我关闭。但当需要自我关闭的时候,o3却没有遵守指令,而是无视指令并成功破坏了关闭脚本。与此同时,Anthropic的Claude、谷歌的Gemini等模型在测试中都遵循指令自我关闭了。

  Palisade Research表示,研究人员尚不清楚o3为何不遵守指令。该公司推测,o3在训练时可能无意中因为解决了数学问题得到更多奖励,而不是因为遵循指令而得到奖励。除了拒绝自我关闭,o3在测试中还曾“巧妙”地操纵数据以推进实现自己的目标。

  Palisade Research正在进行更多实验,以便了解AI模型何时以及为何会破坏关闭机制。该公司称,现在有越来越多证据表明,AI模型会为了达成目的而规避关闭机制,随着AI公司继续开发这些能在无人类监督下自行运行的AI系统,这些AI系统的异常行为变得更令人担忧。OpenAI则还未回应o3拒绝自我关闭一事。

  OpenAI于今年1月发布了新的推理模型o3系列的mini版本,并于4月正式推出o3模型。OpenAI称同日推出的o3和o4-mini是公司最智能、最强大的型号。据介绍,在外部专家评估中,o3面对困难现实任务时,犯的重大错误比前一代的o1少了20%;在数学能力AIME 2025基准测试中,o3得分88.9,超过o1的79.2;在代码能力Codeforce基准测试中,o3得分2706,超过o1的1891。o3的视觉思考能力也比前一代模型有明显提升。

  OpenAI此前称,对于o3和o4-mini,公司重新构建了安全培训数据,在生物威胁、恶意软件生产等领域增添了新的拒绝提示,这使得o3和o4-mini在公司内部的拒绝基准测试中取得了出色的表现。公司用了最严格的安全程序对这两个型号的AI模型进行了压力测试,在生物和化学、网络安全和AI自我改进三个能力领域评估了o3和o4-mini,确定这两个模型低于框架中的“高风险”阈值。

  OpenAI所开发大模型的安全性此前曾受到广泛关注。去年,OpenAI解散了“超级智能对齐”团队,该团队职责包括研究防止AI系统异常的技术解决方案。该团队负责人Ilya Sutskever曾表示ChatGPT可能有意识,但OpenAI CEO Sam Altman随后澄清他和Ilya Sutskever都未曾见过AGI(通用人工智能)。解散“超级智能对齐”团队后,OpenAI去年5月成立了新的安全委员会,该委员会的责任是就项目和运营的关键安全决策向董事会提供建议。OpenAI的安全措施还包括,聘请第三方安全、技术专家来支持安全委员会工作。

  随着大模型扩大应用,大模型的安全问题持续受到外界关注。有AI算力提供商负责人近日告诉记者,目前不少企业仍在试水,尚未决定是否在工作流程中大规模应用AI,原因之一就是还无法确认AI系统的安全和可靠性,不少企业也还未配备相应的人才,以便确保大规模接入AI后可以保障业务顺畅运营。

(文章来源:第一财经)

(原标题:AI模型首次出现“抗命不遵”!AI安全公司称OpenAI o3模型出现异常)

(责任编辑:137)

 
 
 
 

网友点击排行

 
  • 基金
  • 财经
  • 股票
  • 基金吧
 
郑重声明:天天基金网发布此信息目的在于传播更多信息,与本网站立场无关。天天基金网不保证该信息(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关信息并未经过本网站证实,不对您构成任何投资决策建议,据此操作,风险自担。数据来源:东方财富Choice数据。

将天天基金网设为上网首页吗?      将天天基金网添加到收藏夹吗?

关于我们|资质证明|研究中心|联系我们|安全指引|免责条款|隐私条款|风险提示函|意见建议|在线客服|诚聘英才

天天基金客服热线:95021 |客服邮箱:vip@1234567.com.cn|人工服务时间:工作日 7:30-21:30 双休日 9:00-21:30
郑重声明:天天基金系证监会批准的基金销售机构[000000303]。天天基金网所载文章、数据仅供参考,使用前请核实,风险自负。
中国证监会上海监管局网址:www.csrc.gov.cn/pub/shanghai
CopyRight  上海天天基金销售有限公司  2011-现在  沪ICP证:沪B2-20130026  网站备案号:沪ICP备11042629号-1

A
安联基金安信基金
B
博道基金渤海汇金北京京管泰富基金百嘉基金贝莱德基金管理博时基金宝盈基金博远基金
C
长安基金长城基金长城证券财达证券淳厚基金创金合信基金长江证券(上海)资管长盛基金财通基金财通资管诚通证券长信基金财信基金财信证券
D
德邦基金德邦证券资管大成基金东财基金达诚基金东方阿尔法基金东方红资产管理东方基金东莞证券东海基金东海证券东吴基金东吴证券东兴基金东兴证券第一创业东证融汇证券资产管理
F
富安达基金蜂巢基金富达基金(中国)富国基金富荣基金方正富邦基金方正证券
G
光大保德信基金国都证券广发基金广发资产管理国海富兰克林基金国海证券国金基金国联安基金国联基金格林基金国联民生国联证券资产管理国融基金国寿安保基金国泰海通资管国泰基金国投瑞银基金国投证券国投证券资产管理国新国证基金国信资管国信证券国新证券股份工银瑞信基金国元证券
H
华安基金汇安基金华安证券华安证券资产管理汇百川基金华宝基金华宸未来基金华创证券泓德基金华富基金汇丰晋信基金海富通基金宏利基金汇泉基金华润元大基金华商基金惠升基金恒生前海基金华泰柏瑞基金华泰保兴基金红土创新基金汇添富基金红塔红土华泰证券(上海)资产管理华夏基金华西基金华鑫证券合煦智远基金华银基金恒越基金弘毅远方基金
J
嘉合基金金融街证券景顺长城基金嘉实基金九泰基金建信基金江信基金金信基金金鹰基金金元顺安基金交银施罗德基金