OpenAI离AGI(artificial general intelligence,通用人工智能)似乎又更近了一步。上周五,在“OpenAI 12天活动”的第12天,OpenAI首席执行官萨姆·奥特曼宣布了其最新的人工智能“推理”模型o3和o3-mini,这两款模型是在今年早些时候推出的o1模型的基础上开发的。
OpenAI本次12日的活动第一天官宣了上线正式版o1,所谓满血o1。活动最后一天又有o3亮相,首尾都由介绍推理模型呼应,也算是一种精心设计。
据介绍,这些模型使用OpenAI所称的“私人思维链”,模型会暂停检查其内部对话,并在响应之前提前计划,你可以称之为“模拟推理”(SR),即一种超越基本大型语言模型(llm)的人工智能形式。
据了解,为了避免与英国电信运营商o2发生潜在的商标冲突,该公司将其最新的人工智能“推理”模型命名为“o3”而不是“o2”。
直播中,奥特曼称o3是“一个非常、非常聪明的模型”。OpenAI的评估结果也显示,无论在软件工程、编写代码,还是竞赛数学、掌握人类博士级别的自然科学知识能力方面,o3都明显高出o1一筹。同时测试显示,o3在OpenAI实现通用人工智能(AGI)这一奋斗目标上取得了突破,最高的测试成绩达到了类人水平。
根据OpenAI的说法,o3模型在ARC-AGI基准上获得了破纪录的分数,ARC-AGI基准是一种视觉推理基准,自2019年创建以来一直保持不败。在低计算场景中,o3得分为75.7%,而在高计算测试中,它达到了87.5%,与人类在85%阈值下的表现相当。
OpenAI还报告说,o3在2024年美国数学邀请赛中得分为96.7%,只缺了一道题。该模型在包含研究生水平的生物、物理和化学问题的GPQA Diamond上也达到了87.7%。在EpochAI的前沿数学基准上,o3解决了25.2%的问题,而其他模型都没有超过2%。
o3-mini版本包括自适应思考时间功能,提供低、中、高处理速度。该公司表示,更高的计算设置可以产生更好的结果。OpenAI报告说,在Codeforces基准测试中,o3-mini的性能超过了它的前身o1。
但测试发现,表现完美的o3在计算投入方面并不那么“美丽”。
ARC-AGI(通用人工智能抽象与推理语料库)发起者、Keras(用Python编写的高级神经网络API)之父弗朗索瓦·肖莱(Francois Chollet)在o3发布后公布了一篇测试报告。
报告显示,o3在高计算量模式下获得了87.5%的分数,在低计算量模式下,性能是o1的3倍。成本方面,低计算量模式下,每个任务需要花费20美元,而在高计算量模式中每个任务需要数千美元。
肖莱表示:“它非常昂贵,但并不只是‘蛮干’——这些能力是全新的领域,需要科学界的认真关注。”
据悉,推理模型作为人工智能的核心技术之一,具备强大的数据处理和分析能力,其应用范围广泛,几乎覆盖了所有与智能化相关的领域。
虽然o3的测评看上去表现惊艳,但OpenAI应该不会很快面向大众上线这款新的超级推理模型。
据悉,o3和o3-mini并未正式发布,安全研究人员目前可以注册获取o3-mini的预览版,o3预览版也将在之后的某个时间推出,OpenAI没有给出具体时间。在直播的一开始,奥特曼也强调了此次并不是发布,只是宣布o3。他表示,计划在1月底发布o3-mini,然后再发布o3。
奥特曼在直播中表示,在OpenAI正式发布新的推理模型之前,他更希望有一个联邦政府的测试框架,指导监控和减轻此类模型的风险。“应该有某种联邦测试框架,说明我们最感兴趣的是监控和缓解危害,类似于这里有一组测试,在你发布它之前,必须能够证明这种模型在这些方面是安全的。”
值得一提的是,除了OpenAI,各家AI公司近期也纷纷发布推理模型。
11月16日,月之暗面(Moonshot AI)Kimi推出新一代数学推理模型k0-math;11月20日,DeepSeek发布了首个推理模型DeepSeek-R1-Lite预览版;11月28日,阿里云通义团队发布全新AI推理模型QwQ-32B-Preview。
在当地时间12月19日,谷歌也发布首个推理模型Gemini 2.0 Flash Thinking。它使用了类似o1模型的慢思维思考方式,可以深度可视化展示整个思维链过程,尤其是在执行数学、编程等复杂问题方面。
相比o1,Gemini 2.0 Flash Thinking的最大差别是,让用户能看到一步一步推理的过程,更清晰、更透明地了解模型如何得出结论。它刚亮相就登上了Chatbot Arena大模型评估的榜首。不过,谷歌的这一新模型还处于实验性阶段,只是一个早期版本。
北京商报综合报道
责任编辑:丁文武
APP专享直播
热门推荐
外甥在外公灵堂殴打舅妈获刑6个月 舅妈灵堂不下跪被外甥打断6根肋骨 收起外甥在外公灵堂殴打舅妈获刑6个月 舅妈灵堂不下跪被外甥打断6根肋骨
- 2025年01月07日
- 10:01
- APP专享
- 广西台新闻910
- 57,215
泰警方披露王星现状:状态正常,目前不允许探视!当事人自述过境后发现被骗,不敢反抗
- 2025年01月08日
- 01:35
- APP专享
- 广西台新闻910
- 47,947
全国各地捐款献爱心 驰援西藏地震灾区
- 2025年01月07日
- 11:56
- APP专享
- vsta
- 46,007
24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势领涨今天 12:11:40
在1月8日举行的上海未来产业基金投资策略发布会上,上海未来产业基金的管理人上海未来启点私募基金管理有限公司总经理魏凡杰介绍基金的投资策略时表示,上海未来产业基金规模100亿人民币,周期15年,基金将定位为逆周期耐心资本,聚焦在推动上海和中国0-1原始创新的转化。目前,上海未来产业基金已具备投资条件,近期将正式启动子基金公开遴选工作。 -
趋势起航今天 10:35:20
个股问答时间!大家有个股问题欢迎提问! -
趋势起航今天 10:34:46
情绪上今天情绪是在恢复的,一方面指数跳水阶段顺钠股份(sz000533)逆势封板,另外一方面海得控制(sz002184)换手6连板,除此之外微盘股今天共振深V反弹站上五日线,所以明天只要情绪继续向好(比如海得7连板、顺钠3连板),只要上证指数不大跌,微盘股大概率是领涨反弹的(因为今天主要是主板权重更强,明天会切换)。 -
趋势起航今天 10:31:35
昨晚评论区很多粉丝说各大主播都觉得今天指数要冲高回落,结果今天开盘资金都在抢跑指数直接低开,再加上昨天英伟达大跌,最应该早盘走强的算力也被砸了,指数一路往下跳,一直到下午指数开始深V反弹,最终收盘指数是红了但是跟指数一起跳下去的票依旧还是绿的。好消息是,今天来个深V也说明了下面是有抵抗的,连续下跌缩量降速之后资金就会借助指数的背离去做反抽,今天即使不是最低点,但是也是底部附近了;另外今天的下杀放量意味着很多绝望的资金在这里止损,经历一个深V洗盘、汪汪队强力护盘的动作之后,场内资金看到刚割完就拉起来了,那么这里大概就不敢轻易卖抛压也就减少了,那明天大概率还可以继续反抽。坏消息是,接下来很有可能还有二次探底预期,没有看到中阳线之前还是不能冒然的去抄底、加仓,市场不持续放量和持续主线情况下,指数以震荡题材以轮动形式去演绎,难度非常大,仓位重的轮动到了你涨了就可以减,等待机会。 -
趋势领涨今天 10:10:34
【今日投资舆情热点】1)养老:国务院发布《关于深化养老服务改革发展的意见》,到2029年,养老服务网络基本建成,基本养老服务供给不断优化。2)算力相关:微软表示,今年将在人工智能数据中心投入800亿美元,支出中超过一半用于美国。3)机器人(sz300024):在2025CES上,英伟达推出世界基础模型,旨在加速自动驾驶汽车、机器人(sz300024)等物理AI系统开发。4)泛消费:国家发展改革委、财政部发布《关于2025年加力扩围实施大规模设备更新和消费品以旧换新政策的通知》。5)Micro LED:三星在CES上展出多款搭载Micro LED的产品;与此同时,三星显示旗下eMargin表示已收到RGB Micro OLED的工程样品订单,计划今年二季度开始生产。 -
数字江恩今天 09:48:43
只是明日来说快,若先突破今日高点,会稍微强势些;若先跌破今天尾盘低点则弱势些。但明确底部震荡则拉起只要不突破5周线则不追高,回踩也不杀跌。 -
数字江恩今天 09:48:39
看3418下跌内部结构,这里顶底对称震荡。今天虽然分时拉升了70个点,但依旧在底部震荡的范畴之内。目前的结构,百点量级都只是底部震荡,而不是反攻力度。【更多独家重磅股市观点请点击】 -
数字江恩今天 09:48:27
看3494的下跌结构,这里已经是末端,但依旧不能确立3175就是最低点了。这里可以说明两点:第一,如果直接突破5周均线,可以说明3175就是最低点;第二,如果没有拉动起来,再次回踩,3200之下也是机会大于风险的。【更多独家重磅股市观点请点击】 -
数字江恩今天 09:48:12
板块来看,今日机器人(sz300024)板块表现最好,科技板块跌回了昨日涨幅,但弹性较大,到收盘有几乎抹平了日内跌幅。总的来说,今天银行石油撑着,个股蹦极为主。 -
数字江恩今天 09:48:07
A股两市今日成交5081 + 7348 = 12429 亿人民币,略微放量,依旧处于10月8日以来低量群,也低于上周三个下跌交易日的成交量。大盘今天剧烈震荡,上午剧烈下跌,下午剧烈反弹,收盘价格几乎和昨日持平。个股方面40%的个股红盘上涨,但大跌个股家数很少。