来源: DeepTech深科技(20.910, 1.19, 6.03%)
当地时间 1 月 30 日,美国 AI 公司 Anthropic 的 CEO 达里奥·阿莫迪(Dario Amodei)在个人博客发表“万字檄文”,指出对于 DeepSeek 的崛起,美国白宫应该加强管制。


达里奥·阿莫迪博文核心观点:不应将技术优势拱手让给中国
达里奥·阿莫迪(Dario Amodei)写道:“我暂且不讨论 DeepSeek 是否对 Anthropic 等美国 AI 企业构成威胁,尽管我认为许多关于 DeepSeek 威胁美国 AI 领导地位的说法被严重夸大了。我更关注的是,DeepSeek 的成果发布是否削弱了美国芯片出口管制政策的合理性。我的看法是否定的。事实上,我认为 DeepSeek 的进展反而令出口管制政策显得比一周前更加重要。出口管制服务于一个至关重要的目标:确保民主国家在 AI 发展中保持领先地位。需要明确的是,出口管制并不是逃避美中竞争的手段。如果美国和其他民主国家的 AI 公司想要最终胜出,就必须开发出比中国更卓越的模型。但是,在力所能及的情况下,我们不应将技术优势拱手让给中国。”
此外,达里奥·阿莫迪(Dario Amodei)还怀疑 DeepSeek 使用了禁运芯片。他写道:“DeepSeek AI 芯片舰队的很大一部分似乎是由以下芯片组成:尚未被禁止的芯片(但应该被禁止)、在被禁止之前发货的芯片以及一些非常可能走私来的芯片。这表明出口管制实际上正在发挥作用并正在进行自适应:(因为)漏洞正在被堵塞。否则,他们很可能拥有全部由顶级的 H100 组成的芯片舰队。如果我们能够足够快地堵塞漏洞,我们或许能够阻止中国获得数百万块芯片,从而增加美国领先的单极世界出现的可能性。”
但他同时指出:“DeepSeek-V3 实际上是一项真正的创新,一个月前就应该引起人们的注意(我们当然注意到了)。作为一款预训练模型,它在某些重要任务上的表现似乎已接近美国最先进的模型水平,但训练成本却大大降低(尽管我们发现 Claude 3.5 Sonnet 在编程等关键任务上依旧明显更胜一筹)。DeepSeek 团队通过一些十分令人印象深刻的创新实现了这一点,同时这些创新主要集中在工程效率上。特别是在‘键值缓存(Key-Value cache)’的管理上以及推动‘混合专家(MOE,mixture of experts)’方法的使用上,DeepSeek 团队取得了创新性的改进。”
尽管肯定了 DeepSeek 的进步,但是达里奥·阿莫迪(Dario Amodei)似乎不以为然,他在上述博文中还表示:“总而言之,DeepSeek-V3 并非一项独特的突破,也并非从根本上改变了大模型的经济性;它只是持续成本降低曲线上一个预期的点。这次的不同之处在于,第一个展示预期成本降低的公司是中国公司。这在以前从未发生过,并且具有地缘政治意义。然而,美国公司很快也会效仿——而且他们不会通过复制 DeepSeek 来做到这一点,而是因为降低成本也是这些公司的发展趋势。”


苹果联合 MIT 揭示 DeepSeek 背后秘密
无独有偶,近期苹果公司的一项研究提出了类似的观点。五位苹果公司的 AI 研究人员联合美国麻省理工学院(MIT)的一名研究人员发表了一篇论文,该论文也提及了混合专家(MOE,mixture of experts)这一方法,并揭示了 DeepSeek 背后的秘密,即其利用稀疏性在给定的计算能力下获得更好的结果,也就是说利用稀疏性来从芯片中榨取更多价值。

稀疏性有多种表现形式。有时,稀疏性会消除 AI 使用的部分数据,因为这些数据不会对模型的输出产生实质性影响。如果这样做不会影响到最终结果,那么它就会涉及到切断神经网络的整个部分。而 DeepSeek 正是采用了神经网络的“简约使用”方式。
在这篇论文中,苹果的研究人员表示他们使用一款名为 MegaBlocks 的代码库进行研究。同时,他们明确表示,本次研究结论也能用于解释 DeepSeek 的模型原理。
其在论文中表示,在增加稀疏性的同时,当按比例地扩大参数总数时,那么即使在固定训练计算预算的限制下,也能持续降低预训练损失(预训练损失指的是神经网络的准确度。一般来说,训练损失越低,结果越准确)。

在这篇论文中,苹果的研究人员研究了参数和每个示例的计算之间的最佳权衡,以便实现模型容量的最大化。
通过此,他们发现:
首先,在预训练期间,通过添加更多参数来增加模型容量,要比增加每个示例的 FLOP 带来的好处更大。研究人员观察到,随着训练预算的增加(以总 FLOP 来衡量),计算优化模型的大小会增加,而计算优化模型的有效参数数量(与每个示例的 FLOP 有关)会减少。
其次,在推理过程中,每个示例的 FLOP 似乎发挥着更重要的作用。在多个任务之中,上游任务性能都可以很好地预测下游任务性能,并且上游性能和下游性能之间的关系不受稀疏性的影响。然而,苹果的研究人员观察到:同等条件之下,稀疏模型即参数量较少的模型,在特定类型的下游任务上表现较差。这说明要想完成这些任务,模型可能需要更多的“推理”训练。
同时,这一研究结果也与之前关于混合专家扩展法则(MoE Scaling Laws)的相关研究结果保持一致。这表明在预训练过程中,增加稀疏性水平的确可以提高性能和效率。考虑到根据任务或示例复杂性,可以自适应地增加推理过程中每个示例的计算量,因此苹果的研究人员认为通过增加稀疏性来降低单位计算成本的 MoE 方法具有很大的前景,因为它们或许能够提高预训练效率和推理效率。
这也表明:在训练计算预算受限时,作为控制 MoE 中每个示例 FLOP 的“旋钮”,稀疏性是一个能够优化模型性能的强大机制。通过平衡参数总数、计算和稀疏性,可以更有效地扩展 MoE。苹果的研究人员在论文中表示,他们在实验中引入 MoE 是为了在不显著增加推理成本的情况下增加模型容量。而论文中的实验结果也表明,在总训练计算预算固定的情况之下,增加 MoE 中的稀疏性不仅可以减少每个示例的 FLOP,还能增加参数数量以及降低预训练损失。
换句话说,在使用 MoE 的前提之下,如果对于参数总数没有限制,并且希望能够降低预训练损失,那么通过参数计数增加模型的容量可能是一个最优策略。另一方面,稠密模型在一些任务上会表现出更好的性能转移,因为这些任务可能依赖对于输入的更深层次的处理,而不是依赖存储在模型参数中的知识。

事实上,稀疏性在 AI 研究中并不新鲜,也的确并非一种工程新方法。使用大模型的其中一些总参数并关闭其余参数的能力,是稀疏性应用的案例之一,这种稀疏性会对模型的计算预算产生重大影响。多年来,AI 研究人员一直在证明,当消除神经网络的某些部分时,将能以更少的努力实现同等甚至更好的准确性。
英伟达的竞争对手英特尔多年来一直将稀疏性视为实现该领域技术突破的关键途径。近年来,一些初创公司的模型基于稀疏性的方法也在行业基准上获得了高分。稀疏性的神奇作用意义深远,因为它不仅可以为小预算模型带来更大的经济效益(如 DeepSeek),还可以反过来发挥作用:即在花更多的钱的同时,巧妙利用稀疏性来得到更好的收益。正因此,预计将有更多人加入进来复制 DeepSeek 的成功。
参考资料:
https://www.zdnet.com/article/apple-researchers-reveal-the-secret-sauce-behind-deepseek-ai/
https://arxiv.org/pdf/2501.12370
https://darioamodei.com/on-deepseek-and-export-controls
排版:Euodia
03/
04/
责任编辑:张恒星


APP专享直播
热门推荐
特朗普批评泽连斯基:三年前就该结束这一切 收起特朗普批评泽连斯基:三年前就该结束这一切
- 2025年02月19日
- 00:27
- APP专享
- 扒圈小记
11,592
事发上海!妻子被撞,丈夫拦停酒驾肇事逃逸者,致其十级伤残,被索赔30万,法院判了
- 2025年02月18日
- 14:18
- APP专享
- 扒圈小记
3,537
明查|德国防长称对美副总统万斯的讲话“感到恶心”?假
- 2025年02月18日
- 23:16
- APP专享
- 北京时间
3,265

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势领涨今天 10:04:53
【南向资金今日净买入超103亿港元 阿里巴巴获净买入居前】南向资金净买入103.24亿港元。其中,阿里巴巴-W、快手-W、华虹半导体分别合计获净买入约28.30亿港元、8.13亿港元、7.35亿港元;美团-W、晶泰控股-P合计遭净卖出13.31亿港元、0.49亿港元。 -
数字江恩今天 09:45:35
这里昨日的急跌、今日的急涨都属于宽幅震荡结构,哪怕略为突破3366也不改变这个事实。宽幅震荡中,急跌不杀跌、急涨不追涨,今天修复之后,等待再次回踩,配合5分钟底背离和轮峰线的支持寻找机会。 -
数字江恩今天 09:45:27
这里先不看细节,直接看15分钟图。图上的3464-3418蓝色轮峰线是核心,3140的反弹abc突破蓝色轮峰线之后,只要不有效跌破轮峰线,维持之上震荡,其实都是宽幅震荡结构。【更多独家重磅股市观点请点击】 -
数字江恩今天 09:45:17
今日最瞩目的板块当属人形机器人(sz300024)机器人(sz300024),此外,deepseek各个细分行业也在修复。无论是大盘,还是双创,还是国政2000都反V了昨日的中阴线实体部分。市场大悲后迎来大喜,大悲大喜后自然是各种观点的混乱。 -
数字江恩今天 09:45:11
A股两市今日成交6751 + 10459 = 17210 亿人民币,相比昨日缩量近800亿。大盘早盘1小时左右强力拉升,然后全天在20点内的小区间窄幅震荡,收涨27个点。个股方面,和昨日想法,超过85%的个股收红。7%以上大幅上涨个股家数也超过了昨日大幅下跌个股家数。 -
数字江恩今天 09:45:07
宽幅震荡忌追涨杀跌 -
趋势领涨今天 09:25:41
盘后再放利好,两部门:鼓励外资在华开展股权投资 引导更多优质外资长期投资我国上市公司;适时进一步扩大电信、医疗领域开放试点 研究制定有序扩大教育、文化领域自主开放实施方案。五部门印发《优化消费环境三年行动方案(2025—2027年)》 -
北京红竹今天 08:47:20
3、指数调整还没到位目前沪指五分钟级别三买还是没有出现,恒生科技指数和创业板也没有跌破防守线,昨天第一次洗盘,今天快速修复。对于指数来说,调整还没有完成,至少五个新低还没有。如果你是纯指数交易者,还要继续等。不过我在直播中也大家说过了,指数会有回落,但不谈大风险,定义为洗盘。目前指数的洗盘还没结束。 -
北京红竹今天 08:47:16
2、围绕主线继续嗨DeepSeek和人形机器人(sz300024)、铜缆,铜缆属于最弱的,主要强调的还是前面2个。今天是人形机器人(sz300024)滞涨品种大涨,今天DS滞涨品种并没有大规模爆发,我的第六感它也快了。红竹动向示范账户目前只有一只DS,我是真心想扩大数量,多买几只DS和人形机器人(sz300024),怎奈安全垫还没打好,只能忍了。红帅动向示范账户,我定义的就是激进,这个没有安全垫一说,目前就是围绕这两类,几乎每天七进七出。总之,如果玩资金短线,就围绕这三个方向。 -
北京红竹今天 08:47:13
1、情绪全面恢复全天成交额1.72万亿,上涨4645家,下跌591家,涨停120家,跌停4家。涨幅最牛的依然是咱们的三大方向之一,人形机器人(sz300024)。这火爆程度不亚于一只妖股的起飞。人形机器人(sz300024)指数大涨8.35%,里面的个股更是涨停的数不过来,而且大多数都是我所说的节奏,滞涨品种开始大幅补涨。周末小课中的股票池新增加的人形机器人(sz300024)都是滞涨品种,今天全线大涨,涨停还有好几家。周一晚上小课还有讲解几只人形机器人(sz300024),教大家如何寻找左侧买点和右侧买点,今天2只涨停。最近只要围绕DS和人形机器人(sz300024)几乎都有利润,只是多和少的问题。参加小课的同学更是随便借力,股票池里90%都是DS和人形机器人(sz300024)。红竹动向示范账户,继续持有DS,图就不贴了,后期也打算每周跟大家汇报一次我个人的交易情况,每天都贴图太麻烦了。等阅读力上来,我有更新动力(sz300152)的时候,我可以周六日的时候把交割单给大家截图,汇报一下一周的交易品种和位置,目前阅读量太低了,还没动力。