首个OpenAI免费推理模型o3-mini发布!DeepSeek让奥特曼反思:不开源我们错了

首个OpenAI免费推理模型o3-mini发布!DeepSeek让奥特曼反思:不开源我们错了
2025年02月01日 11:32 市场资讯

  金磊 一水 发自 凹非寺

  量子位 | 公众号 QbitAI

  DeepSeek真算是给大模型圈提了个速——

  就在刚刚,OpenAI深夜紧急发布了最新推理模型,o3-mini系列。

  一共包含三个版本:low、medium和high。

  其中o3-mini和o3-mini-high已经上线:

  根据官方口径,o3系列模型,目标是推动低成本推理的边界。

  ChatGPT Plus、团队和Pro用户从今天起可以访问OpenAI o3-mini,企业级访问将在一周后开放。

  免费用户也可以通过选择“Search+Reason”来使用o3-mini来体验搜索。

  或许是被DeepSeek逼急了,这是OpenAI首次向用户免费推出的推理模型。

  甚至在随后的Reddit“有问必答”活动中,CEO奥特曼也罕见公开反思:

在开源权重AI模型这个问题上,(个人认为)我们站在了历史错误的一边。

  与此同时,短短数小时内,网友们已经开始疯狂实测ing……

  针对STEM推理优化,但价格相较DeepSeek-R1依旧贵出天际

  还是先来看看技术报告都写了啥。

  去年年底,OpenAI上线了o3-mini预览版,再次刷新小模型能力边界。

  (在成本和低延迟上与o1-mini相当)

  当时CEO奥特曼预告称,正式版将在今年1月发布。而卡在ddl的最后时刻,正式版o3-mini终于上桌。

  整体而言,和前一代o1-mini类似,它也针对STEM(Science、Technology、Engineering、Mathematics)进行了优化,延续了mini系列小而美的风格。

  仅o3-mini(medium),不但在数学编码上的表现与o1系列相当,而且响应更快。

  人类专家测评显示,大多数情况下o3-mini比o1-mini产生更准确、更清晰的答案,获得了56%的偏好度,同时在处理复杂现实问题时的重大错误率更是降低了39%。

  数学能力上,低推理强度下的o3-mini(low)达到了与o1-mini相当的水平;中等推理强度下能力媲美满血版o1;而一旦推理强度拉满(high),其表现直接超越o1系列一众模型。

  在由60多位顶尖数学家准备的FrontierMath难题测试中,高推理强度下的o3-mini相较o1系列也有了大幅提升。

  官方甚至特意注明,如果搭配Python工具使用,o3-mini(high)在第一次尝试时就解决了超过32%的问题,其中包括28%以上的T3级问题。

  科学能力方面,在PhD水平的物化生问题上,低推理强度下的o3-mini就已经和o1-mini拉开了层级。

  当然,在编码这项重要能力上,o3-mini更是在各层级上领先o1系列。

  根据它们在LiveBench的表现可以看出,随着推理强度升级,o3-mini的优势还在不断扩大。

  而且需要提醒,o3-mini在取得上述领先的同时响应更快,其平均响应时间为7.7秒,较o1-mini的10.16秒提升了24%。

  最后在安全评估方面,o3-mini在多项安全评估中明显超过了GPT-4o。

  价格方面,相比于输入/输出分别为0.14/0.55美元的DeepSeek-R1,o3-mini依旧贵出天际。

  根据网友辣评,DeepSeek-R1目前还是性价比之王:更快、更好、更便宜。

  BTW,OpenAI此次照例公布了o3-mini背后团队。可以看出,这一次是由奥特曼本人亲自带队,研究项目主管分别为Carpus Chang和Kristen Ying(名单中也有很多我们熟悉的老朋友如任鸿宇、赵盛佳等)。

  网友疯狂实测中

  正如我们刚才所提到的,目前网友们已经开始疯狂实测中。

  不过从评价上来看,大伙儿对o3-mini的表现褒贬不一。

  例如在用Python实现“球在四维体内部弹跳”的任务上,有人认为o3-mini是最好的LLM:

  效果是这样的:

  然后有网友尝试用DeepSeek来做同样的任务,从效果上来看,认为o3-mini稍微胜出一些:

  更直接的对比,让一个球在旋转的六边形内弹跳,球应受到重力和摩擦力的影响,o3-mini和DeepSeek R1的效果差距就比较明显了:

  包括更复杂的一些的任务,在球体内创建100个弹跳的黄色球,o3-mini现在也是可以做到:

  再如让o3-mini设计两个贪吃蛇互相竞争的游戏:

  除了DeepSeek之外,网友也用o1和o3-mini的效果做了对比,例如生成一座庞大、惊人的史诗级漂浮城市。

  还有一位网友提出了令几乎所有大模型都会出错的迷惑性题目,但让他较为震惊的是,o3-mini竟然答对了:

  不过知名播客博主Lex Fridman对o3-mini的评价却是:

OpenAI o3-mini是一个好模型,但DeepSeek R1性能相似,价格更低,并揭示了其推理过程。

更好的模型将会出现(迫不及待想要 o3-pro),但“DeepSeek 时刻”是真实的。我认为五年后它仍会被记住,作为科技历史上的一个转折点。

  One More Thing

  就在o3-mini上线几小时后,奥特曼本人也携团队参与了Reddit的“有问必答”活动。

  考虑到开源DeepSeek最近搅动了AI圈,奥特曼罕见公开反思:

在开源权重AI模型这个问题上,(个人认为)我们站在了历史错误的一边。

  甚至也承认,OpenAI的领先优势不会像以前那么大了。

DeepSeek的确很优秀,我们也会继续研发更好的模型,但领先优势将更小。

  与此同时,OpenAI的一些未来计划也曝光了。

  比如高级语音模式即将迎来更新,OpenAI会直接称它为GPT-5,而不是GPT-5o,不过目前还没有具体时间表。

  另外,推理模型也将支持调用更多工具。

  最后,满血版o3也被提及,不过看起来距离还相当遥远……

海量资讯、精准解读,尽在新浪财经APP

责任编辑:韦子蓉

14条评论|57人参与网友评论
最热评论
JerryTan_MK202江苏盐城
免费个啥,给一天试用期,想用升级Plus版本得掏钱
2月1日12:30举报11回复
别是不是抄了DeepSeek?就是在R1模型外面加了个壳吧
2月1日12:31举报10回复
开源吗?不开源!开放架构和算法吗?也不开放!开发者不会去的,去的都是普通用户
2月1日12:33举报6回复
哇塞,奥特曼超亲民的呢,答疑解惑一小时,真贴心!AI界有你,精彩不断,继续加油哦,看好你!
2月1日19:34举报1回复
沙骑江苏南京
问问他们怎么看巴以冲突。
2月1日18:25举报1回复
大帆哦_374湖北仙桃
这技术竞争真是风云变幻啊
2月1日13:48举报回复

APP专享直播

开播时间 | 3-05 14:23
全球金融與ESG可持續發展髙峰論壇
开播时间 | 3-05 16:00
嘉实基金:【基金经理展开说】债市调整进行时 稳健投资者如何应对?
开播时间 | 3-05 16:00
光大证券:【光大新"机"遇】大基金三期叠加AI浪潮,硬科技焕发新风采
开播时间 | 3-05 16:40
中信证券于翔解读政府工作报告
开播时间 | 3-05 16:00
浦银安盛高翔:两会看投资,迎接A股春天
开播时间 | 3-05 16:00
易方达基金:漫话资产配置
开播时间 | 3-05 15:30
海通证券肖鑫雨、程丽辉:近期债券市场波动及应对策略
开播时间 | 3-05 15:30
华安基金:《黄金 VS AI》——双核驱动下的2025全球资产博弈
开播时间 | 3-05 15:30
华安基金:指数大学堂:如何看待本轮科技行情的持续性?
开播时间 | 3-05 15:30
博时基金:走进AI公司——解码3D视觉与科创投资机遇
开播时间 | 3-05 14:23
全球金融與ESG可持續發展髙峰論壇
开播时间 | 3-05 16:00
嘉实基金:【基金经理展开说】债市调整进行时 稳健投资者如何应对?
开播时间 | 3-05 16:00
光大证券:【光大新"机"遇】大基金三期叠加AI浪潮,硬科技焕发新风采
开播时间 | 3-05 16:40
中信证券于翔解读政府工作报告
开播时间 | 3-05 16:00
浦银安盛高翔:两会看投资,迎接A股春天
开播时间 | 3-05 16:00
易方达基金:漫话资产配置
开播时间 | 3-05 15:30
海通证券肖鑫雨、程丽辉:近期债券市场波动及应对策略
开播时间 | 3-05 15:30
华安基金:《黄金 VS AI》——双核驱动下的2025全球资产博弈
开播时间 | 3-05 15:30
华安基金:指数大学堂:如何看待本轮科技行情的持续性?
开播时间 | 3-05 15:30
博时基金:走进AI公司——解码3D视觉与科创投资机遇
上一页下一页
1/10

热门推荐

将达尔文港租给中企,澳大利亚要变卦? 收起
将达尔文港租给中企,澳大利亚要变卦?

将达尔文港租给中企,澳大利亚要变卦?

  • 2025年03月04日
  • 22:34
  • APP专享
  • 扒圈小记
  • 16,951
APP专享
鸿蒙智行称遭某公司操纵上万账号诋毁 该公司多人已被公安机关缉拿归案并被检察院依法批准逮捕

鸿蒙智行称遭某公司操纵上万账号诋毁 该公司多人已被公安机关缉拿归案并被检察院依法批准逮捕

  • 2025年03月04日
  • 09:55
  • APP专享
  • 扒圈小记
  • 8,956
APP专享
国内油价或“二连降” 加满一箱将少花3.5元

国内油价或“二连降” 加满一箱将少花3.5元

  • 2025年03月04日
  • 23:35
  • APP专享
  • 北京时间
  • 1,988
APP专享
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间
更多>
股票简称 最新价 涨跌幅
以下为热门股票
三峡能源 4.17 -0.48%
京东方A 4.38 +0.23%
TCL科技 4.79 -1.03%
中远海控 13.70 +0.74%
格力电器 42.06 +0.89%

7X24小时

  • 01-17 宏海科技 920108 5.57
  • 01-16 亚联机械 001395 19.08
  • 01-16 海博思创 688411 19.38
  • 01-14 富岭股份 001356 5.3
  • 01-13 超研股份 301602 6.7
  • 新浪首页 语音播报 相关新闻 返回顶部
    关闭
    关闭
    关闭