当前位置：首页 > 体育 > 正文

很强也很贵！OpenAI12天12场直播收官，官宣最新推理模型o3

体育
2024-12-21 13:49:04
272

摘要： OpenAI的12天12场直播收官，离AGI（artificial general intelligence，通用人工智能...

　　OpenAI的12天12场直播收官，离AGI（artificial general intelligence，通用人工智能）似乎又更近了一步。

　　当地时间12月20日，和网友猜测的一样，人工智能（AI）巨头OpenAI发布最新推理模型o3和o3-mini。前一天，OpenAI公司CEO山姆·奥特曼（Sam Altman）就曾发文提到三个“o”暗示了o3的到来。

　　为何新模型跳过了o2直接命名o3？奥特曼表示是为了避免和英国电信运营商O2冲突，“按逻辑应该称为o2，但我们起名字的能力实在太糟了，只能把它称作o3”。

　　据介绍，在编码测试SWE-Bench Verified中，o3性能比o1高出22.8%；在Codeforces竞技编程中得分为2727分，相当于位列第175名的人类选手，甚至超过了OpenAI的首席科学家（2655分）；在数学竞赛AIME 2024和专家级科学问题基准测试GPQA Diamond中成绩都得到明显提升；而在令很多AI和数学家都束手无策的最难数学和推理挑战FrontierMath中，o3解决了25.2%的问题，其他模型均未超过2%。

很强也很贵！OpenAI12天12场直播收官，官宣最新推理模型o3

　　不过，o3和o3-mini并未正式发布，安全研究人员目前可以注册获取o3-mini的预览版，o3预览版也将在之后的某个时间推出，OpenAI没有给出具体时间。在直播的一开始，奥特曼也强调了此次并不是发布，只是宣布o3。他表示，计划在1月底发布o3-mini，然后再发布o3。

　　据外媒报道，AI安全测试人员发现，与传统的“非推理”模型相比，OpenAI此前发布的o1的推理能力使其试图欺骗人类用户的比例更高，同样，Meta、Anthropic和谷歌的领先模型也是如此。而o3试图欺骗用户的比例可能比它的前身更高。

　　OpenAI在博客中表示，正在使用一种新技术“慎重对齐”（deliberative alignment），来使o3等模型符合其安全原则。

　　通过OpenAI所谓的“私人思维链”，o3被训练成在做出反应之前先“思考”。可以对任务进行推理并提前规划，在较长时间内执行一系列动作，帮助找出解决方案。

　　在实践中，当收到一个提示时，o3会在做出反应之前暂停，考虑一些相关的提示，并沿途“解释”其推理过程。一段时间后，模型会总结出它认为最准确的答案。o3 的新功能是“调整”推理时间，可以设置为低、中或高计算量（即思考时间），计算时间越长，执行任务时的表现就越好。

很强也很贵！OpenAI12天12场直播收官，官宣最新推理模型o3

　　ARC-AGI（通用人工智能抽象与推理语料库）发起者、Keras（用Python编写的高级神经网络API）之父弗朗索瓦·肖莱（Francois Chollet）在o3发布后公布了一篇测试报告。

　　报告显示，o3在高计算量模式下获得了87.5%的分数，在低计算量模式下，性能是o1的三倍。成本方面，低计算量模式下，每个任务需要花费20美元，而在高计算量模式中每个任务需要数千美元。

　　肖莱表示：“它非常昂贵，但并不只是‘蛮干’——这些能力是全新的领域，需要科学界的认真关注。”

很强也很贵！OpenAI12天12场直播收官，官宣最新推理模型o3

　　肖莱认为，虽然o3给人留下了深刻印象，是迈向AGI的一个重要里程碑，但并不就是AGI，仍然有相当多非常简单的ARC-AGI-1的任务是o3无法解决的，同时还有迹象表明ARC-AGI-2对o3来说仍极具挑战性，“这表明在不涉及专业知识的情况下，创建对人类来说容易但对人工智能来说不可能的不饱和、有趣的基准仍然是可行的。当创建这样的测试变得完全不可能时，我们将拥有AGI”。

　　当然，ARC-AGI只是AI领域的重要基准之一，对AGI的定义只是其中之一。

　　肖莱称，主要需要解决的问题是o3背后技术的扩展瓶颈在哪。如果人类标注的CoT数据（Chain-of-Thought，思维链）是一个主要瓶颈，那么它的能力就会像大模型一样迅速达到顶峰（直到下一个架构出现）。如果唯一的瓶颈是测试时间搜索（Test-Time Search），那么未来我们将看到持续的扩展。

　　值得一提的是，除了OpenAI，各家AI公司近期也纷纷发布推理模型。

　　11月16日，月之暗面（Moonshot AI）Kimi推出新一代数学推理模型k0-math；11月20日，DeepSeek发布了首个推理模型DeepSeek-R1-Lite预览版。11月28日，阿里云通义团队发布全新AI推理模型QwQ-32B-Preview；在当地时间12月19日，谷歌发布首个推理模型Gemini 2.0 Flash Thinking。

　　英伟达CEO黄仁勋在10月的一次访谈中曾表达了对于推理的看好。他认为：“现在我们在后训练和推理阶段看到了扩展，预训练再也不被视为艰难，推理也变得复杂。推理方面即将因推理链的出现而大幅增长……这是一场智能生产的革命，推理的增长将达到亿倍的规模，这就像上学是为了将来在社会中有所贡献，训练模型很重要，但最终的目标是推理”。

　　月之暗面Kimi创始人杨植麟也在11月表示，推理的占比必然会远超训练，AI产品包括AI技术接下来的发展，很重要的能力就是更加深度的推理，能够把现在只是短链路的简单的问答，变成更长链路的组合式任务的操作。

上一篇：金恪集团、艳阳度假等涉嫌非法集资被立案侦查！记者实探来了

下一篇：万科债券波动剧烈实务领域再现大手笔操作

很强也很贵！OpenAI12天12场直播收官，官宣最新推理模型o3

取消回复发表评论

最新文章

随机文章

热门标签

很强也很贵！OpenAI12天12场直播收官，官宣最新推理模型o3

[ 推荐 ] 相关文章

取消回复 发表评论

最新文章

随机文章

热门标签

取消回复发表评论