OpenAI推理模型“上新”

OpenAI推理模型“上新”
2024年12月23日 00:20 市场资讯

专题:A股市场震荡格局将延续 中长期向上方向保持不变

  OpenAI离AGI(artificial general intelligence,通用人工智能)似乎又更近了一步。上周五,在“OpenAI 12天活动”的第12天,OpenAI首席执行官萨姆·奥特曼宣布了其最新的人工智能“推理”模型o3和o3-mini,这两款模型是在今年早些时候推出的o1模型的基础上开发的。

  OpenAI本次12日的活动第一天官宣了上线正式版o1,所谓满血o1。活动最后一天又有o3亮相,首尾都由介绍推理模型呼应,也算是一种精心设计。

  据介绍,这些模型使用OpenAI所称的“私人思维链”,模型会暂停检查其内部对话,并在响应之前提前计划,你可以称之为“模拟推理”(SR),即一种超越基本大型语言模型(llm)的人工智能形式。

  据了解,为了避免与英国电信运营商o2发生潜在的商标冲突,该公司将其最新的人工智能“推理”模型命名为“o3”而不是“o2”。

  直播中,奥特曼称o3是“一个非常、非常聪明的模型”。OpenAI的评估结果也显示,无论在软件工程、编写代码,还是竞赛数学、掌握人类博士级别的自然科学知识能力方面,o3都明显高出o1一筹。同时测试显示,o3在OpenAI实现通用人工智能(AGI)这一奋斗目标上取得了突破,最高的测试成绩达到了类人水平。

  根据OpenAI的说法,o3模型在ARC-AGI基准上获得了破纪录的分数,ARC-AGI基准是一种视觉推理基准,自2019年创建以来一直保持不败。在低计算场景中,o3得分为75.7%,而在高计算测试中,它达到了87.5%,与人类在85%阈值下的表现相当。

  OpenAI还报告说,o3在2024年美国数学邀请赛中得分为96.7%,只缺了一道题。该模型在包含研究生水平的生物、物理和化学问题的GPQA Diamond上也达到了87.7%。在EpochAI的前沿数学基准上,o3解决了25.2%的问题,而其他模型都没有超过2%。

  o3-mini版本包括自适应思考时间功能,提供低、中、高处理速度。该公司表示,更高的计算设置可以产生更好的结果。OpenAI报告说,在Codeforces基准测试中,o3-mini的性能超过了它的前身o1。

  但测试发现,表现完美的o3在计算投入方面并不那么“美丽”。

  ARC-AGI(通用人工智能抽象与推理语料库)发起者、Keras(用Python编写的高级神经网络API)之父弗朗索瓦·肖莱(Francois Chollet)在o3发布后公布了一篇测试报告。

  报告显示,o3在高计算量模式下获得了87.5%的分数,在低计算量模式下,性能是o1的3倍。成本方面,低计算量模式下,每个任务需要花费20美元,而在高计算量模式中每个任务需要数千美元。

  肖莱表示:“它非常昂贵,但并不只是‘蛮干’——这些能力是全新的领域,需要科学界的认真关注。”

  据悉,推理模型作为人工智能的核心技术之一,具备强大的数据处理和分析能力,其应用范围广泛,几乎覆盖了所有与智能化相关的领域。

  虽然o3的测评看上去表现惊艳,但OpenAI应该不会很快面向大众上线这款新的超级推理模型。

  据悉,o3和o3-mini并未正式发布,安全研究人员目前可以注册获取o3-mini的预览版,o3预览版也将在之后的某个时间推出,OpenAI没有给出具体时间。在直播的一开始,奥特曼也强调了此次并不是发布,只是宣布o3。他表示,计划在1月底发布o3-mini,然后再发布o3。

  奥特曼在直播中表示,在OpenAI正式发布新的推理模型之前,他更希望有一个联邦政府的测试框架,指导监控和减轻此类模型的风险。“应该有某种联邦测试框架,说明我们最感兴趣的是监控和缓解危害,类似于这里有一组测试,在你发布它之前,必须能够证明这种模型在这些方面是安全的。”

  值得一提的是,除了OpenAI,各家AI公司近期也纷纷发布推理模型。

  11月16日,月之暗面(Moonshot AI)Kimi推出新一代数学推理模型k0-math;11月20日,DeepSeek发布了首个推理模型DeepSeek-R1-Lite预览版;11月28日,阿里云通义团队发布全新AI推理模型QwQ-32B-Preview。

  在当地时间12月19日,谷歌也发布首个推理模型Gemini 2.0 Flash Thinking。它使用了类似o1模型的慢思维思考方式,可以深度可视化展示整个思维链过程,尤其是在执行数学、编程等复杂问题方面。

  相比o1,Gemini 2.0 Flash Thinking的最大差别是,让用户能看到一步一步推理的过程,更清晰、更透明地了解模型如何得出结论。它刚亮相就登上了Chatbot Arena大模型评估的榜首。不过,谷歌的这一新模型还处于实验性阶段,只是一个早期版本。

  北京商报综合报道

海量资讯、精准解读,尽在新浪财经APP

责任编辑:丁文武

0条评论|0人参与网友评论

APP专享直播

开播时间 | 1-08 20:00
不确定性时代如何走好投资之路
开播时间 | 1-08 20:00
天弘基金:千帆过境,万木春发--2025年春季资产配置展望
开播时间 | 1-08 19:30
南方基金:时“基”已至,中证A500的创富机遇
开播时间 | 1-08 19:30
嘉实基金:【我是顾问 】2025如何稳健理财?
开播时间 | 1-08 19:00
创金合信基金 小仙女、周志敏:唠唠科吧丨科技全员加速,谁是头号玩家?
开播时间 | 1-08 16:00
天弘基金:天弘固收+ 长债新低下的25年稳健资产配置
开播时间 | 1-08 16:00
光大证券李泉:政策扩围支持消费品以旧换新,家电、消费电子将获益
开播时间 | 1-08 16:00
国君资管:开年伊始,为何市场走向震荡?
开播时间 | 1-08 16:00
招商基金 汪洋:2025“固收+”,能否在市场中“左右逢源”?
开播时间 | 1-08 15:30
银华基金:心动的ETF 第12期 2025高股息资产有望持续占优么?
开播时间 | 1-08 20:00
不确定性时代如何走好投资之路
开播时间 | 1-08 20:00
天弘基金:千帆过境,万木春发--2025年春季资产配置展望
开播时间 | 1-08 19:30
南方基金:时“基”已至,中证A500的创富机遇
开播时间 | 1-08 19:30
嘉实基金:【我是顾问 】2025如何稳健理财?
开播时间 | 1-08 19:00
创金合信基金 小仙女、周志敏:唠唠科吧丨科技全员加速,谁是头号玩家?
开播时间 | 1-08 16:00
天弘基金:天弘固收+ 长债新低下的25年稳健资产配置
开播时间 | 1-08 16:00
光大证券李泉:政策扩围支持消费品以旧换新,家电、消费电子将获益
开播时间 | 1-08 16:00
国君资管:开年伊始,为何市场走向震荡?
开播时间 | 1-08 16:00
招商基金 汪洋:2025“固收+”,能否在市场中“左右逢源”?
开播时间 | 1-08 15:30
银华基金:心动的ETF 第12期 2025高股息资产有望持续占优么?
上一页下一页
1/10

热门推荐

外甥在外公灵堂殴打舅妈获刑6个月 舅妈灵堂不下跪被外甥打断6根肋骨 收起
外甥在外公灵堂殴打舅妈获刑6个月 舅妈灵堂不下跪被外甥打断6根肋骨

外甥在外公灵堂殴打舅妈获刑6个月 舅妈灵堂不下跪被外甥打断6根肋骨

  • 2025年01月07日
  • 10:01
  • APP专享
  • 广西台新闻910
  • 57,215
APP专享
泰警方披露王星现状:状态正常,目前不允许探视!当事人自述过境后发现被骗,不敢反抗

泰警方披露王星现状:状态正常,目前不允许探视!当事人自述过境后发现被骗,不敢反抗

  • 2025年01月08日
  • 01:35
  • APP专享
  • 广西台新闻910
  • 47,947
APP专享
全国各地捐款献爱心 驰援西藏地震灾区

全国各地捐款献爱心 驰援西藏地震灾区

  • 2025年01月07日
  • 11:56
  • APP专享
  • vsta
  • 46,007
APP专享
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间
更多>
股票简称 最新价 涨跌幅
以下为热门股票
三峡能源 4.27 +0.23%
京东方A 4.32 -2.48%
TCL科技 4.95 -2.37%
中远海控 14.71 -0.34%
格力电器 47.24 +3.48%
广告

7X24小时

  • 12-30 赛分科技 688758 --
  • 12-30 钧崴电子 301458 --
  • 12-24 星图测控 920116 6.92
  • 12-23 黄山谷捷 301581 27.5
  • 12-20 天和磁材 603072 12.3
  • 广告
    新浪首页 语音播报 相关新闻 返回顶部