OpenAI推理模型“上新”_新浪财经

专题：A股市场震荡格局将延续中长期向上方向保持不变

　　OpenAI离AGI（artificial general intelligence，通用人工智能）似乎又更近了一步。上周五，在“OpenAI 12天活动”的第12天，OpenAI首席执行官萨姆·奥特曼宣布了其最新的人工智能“推理”模型o3和o3-mini，这两款模型是在今年早些时候推出的o1模型的基础上开发的。

　　OpenAI本次12日的活动第一天官宣了上线正式版o1，所谓满血o1。活动最后一天又有o3亮相，首尾都由介绍推理模型呼应，也算是一种精心设计。

　　据介绍，这些模型使用OpenAI所称的“私人思维链”，模型会暂停检查其内部对话，并在响应之前提前计划，你可以称之为“模拟推理”（SR），即一种超越基本大型语言模型（llm）的人工智能形式。

　　据了解，为了避免与英国电信运营商o2发生潜在的商标冲突，该公司将其最新的人工智能“推理”模型命名为“o3”而不是“o2”。

　　直播中，奥特曼称o3是“一个非常、非常聪明的模型”。OpenAI的评估结果也显示，无论在软件工程、编写代码，还是竞赛数学、掌握人类博士级别的自然科学知识能力方面，o3都明显高出o1一筹。同时测试显示，o3在OpenAI实现通用人工智能（AGI）这一奋斗目标上取得了突破，最高的测试成绩达到了类人水平。

　　根据OpenAI的说法，o3模型在ARC-AGI基准上获得了破纪录的分数，ARC-AGI基准是一种视觉推理基准，自2019年创建以来一直保持不败。在低计算场景中，o3得分为75.7%，而在高计算测试中，它达到了87.5%，与人类在85%阈值下的表现相当。

　　OpenAI还报告说，o3在2024年美国数学邀请赛中得分为96.7%，只缺了一道题。该模型在包含研究生水平的生物、物理和化学问题的GPQA Diamond上也达到了87.7%。在EpochAI的前沿数学基准上，o3解决了25.2%的问题，而其他模型都没有超过2%。

　　o3-mini版本包括自适应思考时间功能，提供低、中、高处理速度。该公司表示，更高的计算设置可以产生更好的结果。OpenAI报告说，在Codeforces基准测试中，o3-mini的性能超过了它的前身o1。

　　但测试发现，表现完美的o3在计算投入方面并不那么“美丽”。

　　ARC-AGI（通用人工智能抽象与推理语料库）发起者、Keras（用Python编写的高级神经网络API）之父弗朗索瓦·肖莱（Francois Chollet）在o3发布后公布了一篇测试报告。

　　报告显示，o3在高计算量模式下获得了87.5%的分数，在低计算量模式下，性能是o1的3倍。成本方面，低计算量模式下，每个任务需要花费20美元，而在高计算量模式中每个任务需要数千美元。

　　肖莱表示：“它非常昂贵，但并不只是‘蛮干’——这些能力是全新的领域，需要科学界的认真关注。”

　　据悉，推理模型作为人工智能的核心技术之一，具备强大的数据处理和分析能力，其应用范围广泛，几乎覆盖了所有与智能化相关的领域。

　　虽然o3的测评看上去表现惊艳，但OpenAI应该不会很快面向大众上线这款新的超级推理模型。

　　据悉，o3和o3-mini并未正式发布，安全研究人员目前可以注册获取o3-mini的预览版，o3预览版也将在之后的某个时间推出，OpenAI没有给出具体时间。在直播的一开始，奥特曼也强调了此次并不是发布，只是宣布o3。他表示，计划在1月底发布o3-mini，然后再发布o3。

　　奥特曼在直播中表示，在OpenAI正式发布新的推理模型之前，他更希望有一个联邦政府的测试框架，指导监控和减轻此类模型的风险。“应该有某种联邦测试框架，说明我们最感兴趣的是监控和缓解危害，类似于这里有一组测试，在你发布它之前，必须能够证明这种模型在这些方面是安全的。”

　　值得一提的是，除了OpenAI，各家AI公司近期也纷纷发布推理模型。