首页 > 正文

OpenAI发布o3系列模型“剑指”AGI 北大毕业生打造

2024年12月22日 18:29

来源：新京报

编辑：东方财富网

天天基金网APP

方便、快捷
浏览财经快讯
随时、随地
查净值买基金

手机上阅读文章

提示：
微信扫一扫
分享到您的
朋友圈

大中小

　　12月21日，OpenAI连续12个工作日的直播发布活动正式收官，与第一天发布正式版o1模型相对应的是，最后一天OpenAI首席执行官山姆·奥特曼推出了该公司的下一代大模型并将其命名为o3，o3在一系列测试中的表现超过了o1，并在一项关于通往AGI（通用人工智能）的测试中表现优异。

　　不过，同今年年中发布o1预览版时相同，山姆·奥特曼坦言o1仍然需要进行安全测试，并没有公开具体的对外界开放的日程表。取而代之的是o3-mini（即迷你版本）会在明年1月底发布。值得注意的是，o3-mini的训练者是北大计算机系毕业，后在斯坦福获得博士学位的任泓宇。

　　总体来看，本次OpenAI持续约两周的发布活动算得上“量大管饱”，包括正式版本o1、Sora的“千呼万唤始出来”，也包括下一代模型o3的推出，中间还夹杂了一系列针对开发者、具体产品以及算法技术上的更新升级。但发布内容虽多，却并未再现像上半年视频模型Sora和多模态模型GPT-4o推出时那样带给业界的震撼，尤其是不少用户在使用过正式发布的Sora后发现该产品仍然存在较多缺陷，并非明显优于国内视频模型。这或许说明OpenAI虽然仍是AI大模型领域的佼佼者，但已并非望尘莫及。

　　o3大模型现身 Arc AGI测试题得分超过人类阈值

　　从左至右分别为Arc Prize基金会主席Greg Camerad、OpenAI研究主管Mark Chen、OpenAI首席执行官山姆·奥特曼。

　　本次OpenAI的“收官”直播，山姆·奥特曼与OpenAI高级副总裁、研究主管Mark Chen担任主持人，另外还有两位解说嘉宾分两次上场。

　　在“上半场”，Mark首先介绍了o3大模型的能力：在一项由现实世界软件任务组成的基准测试中，o3得分71.7，超过了得分48.9的o1和得分41.3的o1 preview（预览版）。而在一项名为Elo的竞争性编程能力测评上，o3取得了2727分，o1评分1891，o1 preview评分1258，o3的性能已经达到了o1 preview的两倍多。而在数学基准测试中o3的得分为96.7，也超过了前两者的83.3分和56.7分，“这表示我们正在攀登实用性的前沿。”Mark说。

　　作为对比，Mark本人就是计算机专家，他还曾指导过类似的编程竞赛，但他本人在编程测评上的最好成绩约为2500分，这一点上他被o3击败了。不过他在数学竞赛上的最高分是满分，这一点上o3仍然无法达到人类顶尖水平。“这么说，我就安全了。”山姆·奥特曼对此打趣道。

　　事实上，在OpenAI的最后一场直播之前，有很多网友猜测其是否能够再次震撼业界，如推出一款通往AGI的跨时代产品。而第一位嘉宾——Arc Prize基金会主席Greg Camerad的出场证实了网友的猜测方向。

　　Arc Prize是一个非营利性组织，其推出了“通用人工智能抽象和推理语料库”（ARC-AGI）基准，来衡量AI在获取在未知任务上的效率，该组织为AGI所下的定义为：一个可以在其训练数据之外有效地获得新技能的系统。

　　Greg Camerad表示，该组织的测试题旨在验证大模型在通往AGI方向上的水平，目前o3取得了该组织经验证过的最高分：在低算力配置下，其准确率达到75.7%，高算力下的表现提升至87.5%，而人类平均水平的阈值为85%，这意味着o3在该项测评中的表现已经达到了人类水平，这是一个重要的里程碑，而在o3达到这一水平之前，该测试题已经5年未被攻克。

　　不过，ARC Prize组织方面也表示，这并不代表已经实现了AGI，因为o3在某些简单任务上仍有失误，该组织会继续举办大奖赛，直到出现一个取得85%成绩的高效开源解决方案。根据ARC Prize组织透露的数据，高算力下的o3模型执行每个任务的消耗高达1000美元

　　o1-mini首先推出北大毕业生任泓宇担纲训练任务

　　OpenAI研究员任泓宇（左）介绍o3-mini大模型。

　　虽然o3成为了OpenAI最先进的大模型，不过山姆·奥特曼也坦言，o3不会马上对外开放，理由是该大模型仍然需要进行安全测试。不过他表示将首先开放外部安全测试申请，同时明年1月底将率先开放o3-mini大模型。

　　在本次直播的“下半场”，山姆·奥特曼表示“o3-mini是我们真正感到兴奋的大模型，而训练该大模型的任泓宇将加入我们。”贝壳财经记者了解到，任泓宇本科毕业于北京大学计算机系，后在斯坦福获得博士学位，早在o1-mini推出时，他就担任了训练任务。

　　相比o3模型，o3-mini在性能与成本平衡方面表现更加出色，能够以较低成本提供高效服务。根据任泓宇的演示，o3-mini在编程上展现出了出色的性能，随着思考时间的增加，o3-mini模型的表现不断提升，性能超越o1-mini。

　　任泓宇表示，在中位思考时间下，o3-mini胜过正式版o1模型，能够以大约一个数量级的更低成本提供相当甚至更好的代码性能。此外，o3-mini的响应时间大大缩短，达到了o1的一半。

　　在实用演示中，用户在文本框中输入编码请求后，模型能够迅速将请求发送至API，并自动解决任务，生成代码并保存至桌面，随后自动打开终端执行代码。整个过程复杂且涉及大量代码处理，但o3-mini模型在低成本模式下依然表现出了极快的处理效率。

　　最后，Mark介绍，OpenAI推出了一款被称为审慎对齐的新技术，以找到具体的安全边界，让大模型知道什么时候该审查或拒绝用户提出的需求，但又不会过度拒绝。

　　“现在你可以填写申请表，进行对o3和o3-mini的外部安全测试，有越多人进行安全测试，就能越快确保我们达到明年1月底发布o3-mini以及之后发布o3的目标。”山姆·奥特曼在直播最后表示。

（文章来源：新京报）

(原标题：OpenAI发布o3系列模型“剑指”AGI 北大毕业生打造)

(责任编辑：137)

理财助手 天天基金手机版，移动理财好助手

基金交易活期宝稳健理财指数宝自选基金基金净值投顾管家基金排行高端理财基金评级资讯基金吧

品牌基金公司 更多

网友点击排行

基金
财经
股票
基金吧

郑重声明：天天基金网发布此信息目的在于传播更多信息，与本网站立场无关。天天基金网不保证该信息（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关信息并未经过本网站证实，不对您构成任何投资决策建议，据此操作，风险自担。数据来源：东方财富Choice数据。

将天天基金网设为上网首页吗？将天天基金网添加到收藏夹吗？

天天基金客服热线：95021 |客服邮箱：vip@1234567.com.cn|人工服务时间：工作日 7:30-21:30 双休日 9:00-21:30
郑重声明：天天基金系证监会批准的基金销售机构[000000303]。天天基金网所载文章、数据仅供参考，使用前请核实，风险自负。
中国证监会上海监管局网址：www.csrc.gov.cn/pub/shanghai
CopyRight 上海天天基金销售有限公司 2011-现在沪ICP证：沪B2-20130026 网站备案号：沪ICP备11042629号-1

热门：

OpenAI发布o3系列模型“剑指”AGI 北大毕业生打造

天天基金网APP

手机上阅读文章

理财助手 天天基金手机版，移动理财好助手

品牌基金公司更多

网友点击排行

理财助手天天基金手机版，移动理财好助手