金磊 一水 发自 凹非寺
量子位 | 公众号 QbitAI
DeepSeek真算是给大模型圈提了个速——
就在刚刚,OpenAI深夜紧急发布了最新推理模型,o3-mini系列。
一共包含三个版本:low、medium和high。
其中o3-mini和o3-mini-high已经上线:

根据官方口径,o3系列模型,目标是推动低成本推理的边界。
ChatGPT Plus、团队和Pro用户从今天起可以访问OpenAI o3-mini,企业级访问将在一周后开放。
免费用户也可以通过选择“Search+Reason”来使用o3-mini来体验搜索。

或许是被DeepSeek逼急了,这是OpenAI首次向用户免费推出的推理模型。
甚至在随后的Reddit“有问必答”活动中,CEO奥特曼也罕见公开反思:
在开源权重AI模型这个问题上,(个人认为)我们站在了历史错误的一边。
与此同时,短短数小时内,网友们已经开始疯狂实测ing……
针对STEM推理优化,但价格相较DeepSeek-R1依旧贵出天际
还是先来看看技术报告都写了啥。

去年年底,OpenAI上线了o3-mini预览版,再次刷新小模型能力边界。
(在成本和低延迟上与o1-mini相当)
当时CEO奥特曼预告称,正式版将在今年1月发布。而卡在ddl的最后时刻,正式版o3-mini终于上桌。
整体而言,和前一代o1-mini类似,它也针对STEM(Science、Technology、Engineering、Mathematics)进行了优化,延续了mini系列小而美的风格。
仅o3-mini(medium),不但在数学编码上的表现与o1系列相当,而且响应更快。
人类专家测评显示,大多数情况下o3-mini比o1-mini产生更准确、更清晰的答案,获得了56%的偏好度,同时在处理复杂现实问题时的重大错误率更是降低了39%。
数学能力上,低推理强度下的o3-mini(low)达到了与o1-mini相当的水平;中等推理强度下能力媲美满血版o1;而一旦推理强度拉满(high),其表现直接超越o1系列一众模型。

在由60多位顶尖数学家准备的FrontierMath难题测试中,高推理强度下的o3-mini相较o1系列也有了大幅提升。
官方甚至特意注明,如果搭配Python工具使用,o3-mini(high)在第一次尝试时就解决了超过32%的问题,其中包括28%以上的T3级问题。

科学能力方面,在PhD水平的物化生问题上,低推理强度下的o3-mini就已经和o1-mini拉开了层级。

当然,在编码这项重要能力上,o3-mini更是在各层级上领先o1系列。

根据它们在LiveBench的表现可以看出,随着推理强度升级,o3-mini的优势还在不断扩大。

而且需要提醒,o3-mini在取得上述领先的同时响应更快,其平均响应时间为7.7秒,较o1-mini的10.16秒提升了24%。

最后在安全评估方面,o3-mini在多项安全评估中明显超过了GPT-4o。

价格方面,相比于输入/输出分别为0.14/0.55美元的DeepSeek-R1,o3-mini依旧贵出天际。

根据网友辣评,DeepSeek-R1目前还是性价比之王:更快、更好、更便宜。

BTW,OpenAI此次照例公布了o3-mini背后团队。可以看出,这一次是由奥特曼本人亲自带队,研究项目主管分别为Carpus Chang和Kristen Ying(名单中也有很多我们熟悉的老朋友如任鸿宇、赵盛佳等)。

网友疯狂实测中
正如我们刚才所提到的,目前网友们已经开始疯狂实测中。
不过从评价上来看,大伙儿对o3-mini的表现褒贬不一。
例如在用Python实现“球在四维体内部弹跳”的任务上,有人认为o3-mini是最好的LLM:

效果是这样的:

然后有网友尝试用DeepSeek来做同样的任务,从效果上来看,认为o3-mini稍微胜出一些:

更直接的对比,让一个球在旋转的六边形内弹跳,球应受到重力和摩擦力的影响,o3-mini和DeepSeek R1的效果差距就比较明显了:

包括更复杂的一些的任务,在球体内创建100个弹跳的黄色球,o3-mini现在也是可以做到:
再如让o3-mini设计两个贪吃蛇互相竞争的游戏:
除了DeepSeek之外,网友也用o1和o3-mini的效果做了对比,例如生成一座庞大、惊人的史诗级漂浮城市。

还有一位网友提出了令几乎所有大模型都会出错的迷惑性题目,但让他较为震惊的是,o3-mini竟然答对了:

不过知名播客博主Lex Fridman对o3-mini的评价却是:
OpenAI o3-mini是一个好模型,但DeepSeek R1性能相似,价格更低,并揭示了其推理过程。
更好的模型将会出现(迫不及待想要 o3-pro),但“DeepSeek 时刻”是真实的。我认为五年后它仍会被记住,作为科技历史上的一个转折点。

One More Thing
就在o3-mini上线几小时后,奥特曼本人也携团队参与了Reddit的“有问必答”活动。

考虑到开源DeepSeek最近搅动了AI圈,奥特曼罕见公开反思:
在开源权重AI模型这个问题上,(个人认为)我们站在了历史错误的一边。

甚至也承认,OpenAI的领先优势不会像以前那么大了。
DeepSeek的确很优秀,我们也会继续研发更好的模型,但领先优势将更小。

与此同时,OpenAI的一些未来计划也曝光了。
比如高级语音模式即将迎来更新,OpenAI会直接称它为GPT-5,而不是GPT-5o,不过目前还没有具体时间表。

另外,推理模型也将支持调用更多工具。

最后,满血版o3也被提及,不过看起来距离还相当遥远……

责任编辑:韦子蓉








APP专享直播
热门推荐
将达尔文港租给中企,澳大利亚要变卦? 收起将达尔文港租给中企,澳大利亚要变卦?
- 2025年03月04日
- 22:34
- APP专享
- 扒圈小记
16,951
鸿蒙智行称遭某公司操纵上万账号诋毁 该公司多人已被公安机关缉拿归案并被检察院依法批准逮捕
- 2025年03月04日
- 09:55
- APP专享
- 扒圈小记
8,956
国内油价或“二连降” 加满一箱将少花3.5元
- 2025年03月04日
- 23:35
- APP专享
- 北京时间
1,988

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
北京红竹今天 08:29:09
3、冰点附近底分型最近行情没什么可说的,聊些知识点【每周内参】中有这样一个品种,它属于上涨趋势,并且沿着20日均线一路向上,速度也不快,慢慢悠悠,量能也没有持续放大,也算比较温和。那这个时候选择切入点就很关键了,需要先找到趋势的标准,这种很明显就是属于趋势跟随型,按照趋势的标准跟随买入就好,不符合趋势标准就退出。昨天缩量跌破20日线,从趋势来说破位,可就要看是否拉回了,今天开盘之后出现底分型,在早盘构造底分型之时,就可以理解为趋势跟随买入的位置,后面就按照趋势跟随吃就好。而止损位就可以设置在昨天的低点。后面如果股价继续向上攀升,离场点有两种要么向上乖离很大,要么跌破趋势。按照趋势跟随买入,卖出也要按照趋势跟随卖出。这也是交易中的根。 -
北京红竹今天 08:29:00
2、主线依然没变如果说回落下来准备看哪些方向?资金还是没变,继续看科技这条线,像什么白酒、房地产、消费什么的就算了。DS和人形机器人(sz300024),目前都属于短期调整结构之内,如果完成了调整结构,波段和短线继续向这个方向靠拢就好了。资金在哪里,肉就在哪里,当然也并不是只有DS和人形机器人(sz300024),其他扩展科技题材都可以。这两天观察就好,我也会在【每周内参】中挑选一些符合缠论结构,并且大级别向上的品种,放到股票池中,供大家借力参考。 -
北京红竹今天 08:28:55
1、没变化继续重复观点,缠论就是一段时间一个观点,很难改变。一、如果没有构造日线一笔下跌,直接新高,那就要寻找大风险。二、日线下跌一笔之后寻找机会,干。目前从最高点向下数已经有4个新低了,三十分钟级别回落段形成,也是还差破个低。分类做好了,剩下就看市场怎么选择了,而不是我们去预测市场是涨还是跌。我个人的组合也是等待日线一笔下跌之后,布局波段品种和ETF,这两天几乎没什么交易,也在耐心等待呢。短线也没交易,市场情绪不足,很难找到持续性溢价,赢面不大也就没动。 -
趋势领涨今天 08:01:18
今日共63股涨停,连板股总数13只,24股封板未遂,封板率为72%(不含ST股、退市股)。焦点股方面,机器人(sz300024)板块继续领涨,卓翼科技(sz002369)11天7板,圣龙股份(sh603178)、信隆健康(sz002105)、龙溪股份(sh600592)等连板晋级;午后人气股拓维信息(sz002261)涨停,引领算力板块反弹,大位科技(sh600589)9天6板、宏景科技(sz301396)20CM4天2板。 -
宋谈股经今天 07:24:53
今日共63股涨停,连板股总数13只,24股封板未遂,封板率为72%(不含ST股、退市股)。焦点股方面,机器人(sz300024)板块杭齿前进(sh601177)16天11板、卓翼科技(sz002369)11天7板;午后人气股拓维信息(sz002261)涨停,引领算力板块反弹,大位科技(sh600589)9天6板、宏景科技(sz301396)20CM4天2板。 -
徐善武今天 07:20:22
港股尾盘走高,恒生科技指数涨4%,恒生指数涨近3%。芯片股走强,华虹半导体涨超8%,中芯国际(sh688981)涨超6%。 -
趋势起航今天 07:12:54
【趋势VIP上线预热】华源证券资深投教导师趋势起航直播间将推出《龙头起爆点》VIP,供大家学习,预计下周三之前上线!《龙头起爆点》VIP服务包含:每周3-5只龙头股布局(仓位+区间+逻辑),尊享私密互动,且龙头股策略上最多同时持仓3只,结束一只再更新一只,并全程跟踪。欢迎大家届时支撑! -
趋势领涨今天 07:10:38
6G方向今天领涨,板块指数大涨超过2%。本川智能(sz300964)开盘仅约3分钟就垂直20%涨停,创远信科(bj831961)、三维通信(sz002115)、兴森科技(sz002436)等多股涨幅超过10%,今天讲话强调因地制宜发展新质生产力,建立未来产业投入增长机制,培育生物制造、量子科技、具身智能、6G等未来产业。对这个板块构成利好刺激,这个板块也是很长时间没有启动,借机反弹是非常正常的,总之,近期大涨的板块,今天都是回调的,近期没有表现的板块,今天都出现了反弹,市场资金在高低切换。今天该兑现的消息都已经兑现,所以,前期有预期的农业、大消费板块出现了领跌,本周过后就是消息兑现期,下周没有资金护盘,大盘就是尘归尘,土归土了!外围股市的下跌将引发A股补跌,除非在下周以前能够出现大涨,所以,近期大家还是要注意逐步控制仓位。4月份将进入到季报公布期,业绩不好的公司将会回归价值,特别前期大涨的题材股,基本都是业绩不好的,比如,今天拉升的DeepSeek概念股,涨幅靠前都是业绩大幅亏损的,如果公布季报,你们说他们还能上涨吗?其中的龙头就是寒武纪(sh688256),所以,在这方面,我们还是不如新手,因为新手不会看这些,看到上涨就是追,进入4月份就不能追了! -
趋势领涨今天 07:10:33
蓝筹护盘 大盘放量 调整结束了吗今天大盘在某队护盘的影响下,两市大盘探底回升,盘中四大行全线上涨,招商银行(sh600036)创出近期新高,券商银河恋启动拉升,带动市场人气,但大盘还是没有大涨,创业板、深市到尾盘才拉红,盘面上,两市个股普跌,BC电池、风沙治理、TOPCon概念、租赁同权、钛金属、种业等板块跌幅靠前;6G概念、减速器、人形机器人(sz300024)、英伟达概念、东数西算、商业航天等板块涨幅靠前,两市近90只个股涨停,不到10只个股跌停。上午大盘出现了一波跳水,主要是今年GDP目标为5%左右,财政赤字按4%安排,都是符合市场预期,没有超出预期就是利空,所以,消息公布以后,大盘出现了一波回落,但银行、工程机械等蓝筹股奋力护盘,带动了大盘企稳。沪市今天率先翻红,主要是银行板块在护盘,银行是郭嘉队,郭嘉队是不想今天大盘太难看的,但深市和创业板当时都是下跌的,以前,每次拉升银行股以后,大盘都会出现跳水,今天虽然没有跳水,但两市个股普跌,大部分人都是亏钱的,这种情况应该比大盘下跌更难受,所以,我们建议大家控制仓位是准确的!今天走势最强的是工程机械板块,板块涨幅一度放量涨超6%,创3年半来新高,开盘不到1小时成交就超过昨日全天成交。柳工(sz000528)高开后秒速涨停,股价创年 内新高,厦工股份(sh600815)、永达股份(sz001239)、山推股份(sz000680)等直线拉升涨停。节后,基建项目开工率迅速回升,工程机械需求超预期增长,2月中国工程机械市场指数同比增长13.53%,环比增长5.44%。对这个板块构成利好;另外,房地产行业持续回暖对这个板块也有利好刺激,其实每年春季基本都是炒作工程板块的机会,但追涨需谨慎。 -
波段擒龙今天 07:08:53
截至收盘,沪指涨0.53%,深成指涨0.28%,创业板指涨0.01%。市场全天震荡反弹,三大指数小幅上涨,北证50指数大涨2.82%逼近前期历史高点。沪深两市全天成交额1.49万亿,较上个交易日放量582亿。盘面上,市场热点较为杂乱,个股跌多涨少,全市场超2800只个股下跌。板块方面,工程机械、人形机器人(sz300024)、算力租赁、商业航天等板块涨幅居前,光伏设备、房地产、医药商业、化肥等板块跌幅居前。上证指数重新站上5日均线和20日均线