来源:时代周报
春节假期,泼天流量降到了DeepSeek的头上。
大概一周多之前,DeepSeek还算不上太有名气,在大模型圈之外,外界对它可能多是一头雾水。然而短短几天,其就一跃成为业界顶流,并闯进了公众视野。
因接连推出的两款大模型产品,DeepSeek在华尔街掀起风暴,美股科技股一度重挫。周二,英伟达单日蒸发近6000亿美元市值,博通和美光科技等芯片产业链股票也纷纷大跌。虽然周三英伟达反弹涨近9%,但DeepSeek带来的心理冲击并没消散。
“DeepSeek大模型在性能上比肩ChatGpt,可能意味着国产大模型实现突破,这对美股科技股造成了冲击。”前海开源基金首席经济学家杨德龙告诉时代周报记者。在他看来,科技股是美股牛市的主要推动力,但投资者担心其估值产生巨大泡沫。若一些新技术突破或新模型不需要消耗那么多的GPU,可能会引发像英伟达等公司的大幅下跌,从而导致美股科技股泡沫破裂。
作为一家成立不到两年的大模型公司,无论在融资、技术进展还是舆论层面,DeepSeek一向都动静不大。而它背后的公司幻方量化(一家头部量化私募),在此之前也仅是在私募圈出名。出人意料的是,一家私募和一家大模型初创公司,这样的少见组合诞生了“DeepSeek神话”——无疑令人倍感好奇。
这一切是怎么做到的?
潜行多年
如果从成立时间上看,DeepSeek并无特别之处。自2022年底ChatGPT发布之后,全球科技圈震动,随之一系列国产大模型创业项目面世。DeepSeek搭乘的也是这股潮流,2023年4月,幻方量化高调宣布进军大模型,三个月之后,DeepSeek作为独立公司成立。
但脱胎于幻方量化的DeepSeek,其实技术积累要更早。
幻方量化成立于2015年,创始人是梁文锋。在该公司官网上,赫然写着的是:使用AI投资的对冲基金。按照幻方量化的披露,在公司成立之前七八年时间,创始团队就在探索将技术应用于投资交易。当时量化投资在国内尚未流行,团队成员在这方面的经验同样寥寥,出于朦胧的市场感知和技术理想,梁文锋团队仍决定走上这条路。
在这一时期,幻方量化创始团队从零开始尝试全自动交易,采用机器学习等技术。2010年是一个转折点,当年股指期货和融资融券相继推出,A股投资更活跃和多样化。一时间,量化投资在国内私募基金业逐渐增加,报道称梁文锋团队也借此收益颇丰。
2015年,幻方量化正式成立,借助AI和数学进行量化投资。2016年,幻方量化第一个由深度学习算法模型生成的股票仓位上线实盘交易,使用GPU进行计算。而在此之前,算法主要依靠线性模型和传统机器学习算法,模型计算主要依赖于CPU。
自此之后,幻方的量化策略全面AI化。到2017年底,几乎所有量化策略均已采用AI模型计算。随后不久,该公司明确宣布AI为主要发展方向。
所谓量化投资,指的是借助统计学和数学方法,利用计算机程序对大量数据进行分析,寻求获得超额收益的投资策略。在持仓风格上,量化投资倾向高度分散和多样化配置,以降低单一资产波动的风险。在决策上,不同于传统的依靠基金经理主观判断,量化公司是基于数据和模型进行交易。
全面AI化也带来某些问题,比如复杂的模型计算需求使得单机训练遭遇算力瓶颈,训练需求和有限的计算资源产生矛盾,幻方量化需要解决大规模算力的受限难题。在这个背景下,幻方量化在2019年成立了一家AI基础研究公司,并推出自研的“萤火一号”AI集群,搭载500块显卡。同一年,幻方量化规模扩张,跻身百亿私募。2021年,幻方又斥资10亿元加码建设“萤火二号”,为AI研究提供算力支持。
从事后来看,幻方量化在构建AI算力过程中的“囤卡”动作,为它赢得了市场机会。作为国内早期的英伟达芯片大买家之一,在ChatGPT爆发前夜,幻方量化手中的英伟达显卡数量就越攒越多。据幻方量化称,在2022年时,其用于科研支持的闲时算力高达1533万GPU时,这意味着每天用于科研而非交易的算力便达4.2万GPU时。这个水平,大大超越了后来的很多大模型公司。
DeepSeek,就是在这样的加持下问世。
也交过学费
幻方量化上演了一个“一朝成名天下知”的精彩故事,在它的叙事版本里,无论做金融交易还是进军大模型,都是比较纯粹的技术向追求。
一位接近幻方量化的投资人士告诉时代周报记者,他一直很关注这家公司,并且和团队成员有过交流。虽然没有直接接触过创始人本人,但能感觉出来,相对于商业盈利,这个团队的技术理想色彩是更为浓厚的。
幻方量化希望通过AI量化交易,对金融资产进行定价和投资。金融交易足够复杂,又是从起家就介入的领域,对于旨在实现通用人工智能(AGI)的幻方量化而言,这是一个非常合适的切入场景。
早在2020年,点拾投资创始人朱昂曾访谈过幻方量化CEO陆政哲。彼时陆政哲称,幻方量化将自己定义为一家完全依靠AI来做投资的对冲基金。其模型数据来源有三个,分别是行情数据、覆盖全市场的基本面数据以及经过结构化处理的另类数据。用这三类数据来训练机器模型,据此构建投资组合,再用精细化的程序化交易完成交易。
这套打法确实效果显著,在2017年-2020年间,整个量化行业高速增长,幻方量化的管理规模也水涨船高。不过,量化交易并非完美,幻方量化在这上面也吃过苦头。
2021年12月,由于业绩回撤达历史最大值,幻方量化就业绩不及格发文致歉。幻方量化称,其人工反复检视了AI的投资决策,认为AI选出来的股票从长期价值来说基本上没问题,但在买卖时点上确实做的不够好。尤其市场风格剧烈切换时,AI倾向于冒险博取更多收益,这进一步加大了回撤。
量化资管行业扩张太快,被认为是另一个原因。幻方量化认为,行业规模猛增,导致策略同质化严重,加大了整体操作的难度。因此,当时幻方量化着手控制总的规模,同时表态要加大对策略研究的投入,以重新获得市场优势。而在监管层面,2024年7月份融券业务相关政策发生重大调整,转融券业务暂停,并且融券保证金比例上调。此外,程序化交易被进一步强化监管。量化行业似乎告别一段野蛮发展期。
目前,梁文锋旗下有两家百亿私募,除了宁波幻方量化(股票策略),另外一家是浙江九章资产(多资产策略)。就业绩而言,据私募排排网数据,过去两年量化公司的风头仍然强势,如2023年百亿私募排行榜中,前十名中量化公司占据六席,在104家上榜私募中,九章资产和幻方量化的业绩分列32和33位。到2024年,量化私募的整体收益仍高于主观私募,除东方港湾(主观投资)牢牢把持行业首位之外,前三十名中量化或主观+量化的机构占据多数。不过,幻方量化的业绩同样算不上突出,仅排在第19位。
在私募排排网有业绩展示的12只产品中,幻方量化旗下产品2024年的收益均值为12.18%,收益中位数为13.02%。
“还需冷静看待”
某种程度上,DeepSeek应该是幻方量化的深度转型之作。成立之初,该公司就表示将专注在大模型上,从语言大模型到视觉大模型,再到多模态大模型,堪称步步为营。
过去一年多,从默默无闻到火爆出圈,DeepSeek经历了一条清晰的产品迭代之路。
在2024年5月之前,DeepSeek相继推出了DeepSeek Coder(免费且开源的首个模型)、DeepSeek LLM(第一个大语言模型),其中DeepSeek LLM包含670亿参数,在一个包含2万亿token(语言模型中用来表示单词或短语的符号)的数据集上进行训练。在中文表现上,该模型据称超越了当时的GPT-3.5。
这两款模型都没有引起波澜,直到随后发布的DeepSeek-V2,才让DeepSeek在圈中出名。DeepSeek-V2是混合专家(MoE)语言模型,包含总参数达到2360亿,每个token激活210亿个参数。在一些行业测试中,DeepSeek-V2有着不错的表现。
有意思的是,当时国内业界对这款模型似乎欠缺技术层面的关注。DeepSeek-V2之所以被注意到,是由于它在大模型行业掀起一场价格大战——DeepSeek在5月出宣布,DeepSeek-V2降价至每百万Tokens输入价格为1元、输出价格为2元,开发者还能获得500万Tokens的免费额度。
这个价格水平,大约相当于GPT-4 Turbo的七十分之一。
随即互联网大厂纷纷跟进,甚至不乏有厂家将价格降得比DeepSeek-V2还低。就在国内玩家为价格战打的火热时,有硅谷从业者发现,DeepSeek-V2采用的多头潜在注意力机制,有效提升了大模型的性能。
这或许是硅谷较早地正视这家中国初创公司。
据一位行业相关人士解释,多头潜在注意力机制是DeepSeek-V2提出的一种注意力架构,该架构可以显著降低推理过程中的KV缓存。所谓KV缓存,指的是在大模型的推理过程中,用于存储先前计算结果的一种技术。
到2024年底,DeepSeek继续迭代,推出了DeepSeek-V3模型。DeepSeek终于迎来它的GPT-3时刻。
今年1月20日,DeepSeek-R1发布,在数学、代码、自然语言推理等任务上,宣称性能对标OpenAI o1正式版。而它的蒸馏(将大模型的知识迁移到小模型中)小模型,也超越了OpenAI o1-mini。此外,在开源和闭源路线仍有争议的眼下,DeepSeek宣布R1开源,允许用户进行“模型蒸馏”,以促进技术共享。
DeepSeek-R1是一枚重磅炸弹,在性能上为全球业界瞩目之外,更重要的是——它的成本相比竞品大大降低。一周之后,DeepSeek趁热打铁,又推出开源多模态模型,被认为在文生图方面超越OpenAI的DALL-E3。至此,外界对DeepSeek的讨论关注,达到高潮。
与先进大模型保持相近的性能,并在训练成本、运行成本和服务定价上全面大幅下降,这是DeepSeek震撼科技圈的原因。在这样的现象级产品出现之前,过去两年多时间,由于AI业界对高性能显卡的追逐,英伟达被一路推上王座。无论在资本市场还是产业链,这个逻辑似乎已经确立,没料到DeepSeek横空出世,硬生生搅了局。
不过,这场冲击波能持续多久,还是个未知数。DeepSeek的势头固然很猛,但是否弥合了国产大模型与国际先进水平之前的技术代差,正在引发热议。另外,DeepSeek通过算法优化提升效率,是否就意味着对算力需求的明显减弱,下结论也太早。
喧闹之外,降温观察逐渐成为一种声音。“针对最近几天事情的发展,个人觉得还是冷静看待,肯定其取得的成就,但也要避免情绪化。”上述投资人士如此说道。
责任编辑:石秀珍 SF183
![](http://img.t.sinajs.cn/t5/style/images/face/male_180.png)
![](http://img.t.sinajs.cn/t5/style/images/face/male_180.png)
![](https://tva1.sinaimg.cn/crop.0.0.180.180.50/4151ee85jw1e8qgp5bmzyj2050050aa8.jpg)
![[思考] [思考]](https://n.sinaimg.cn/commnet/2018new_sikao_org.png)
![](http://n.sinaimg.cn/sinanews/eb9bf575/20190108/TouXiang120.png)
![](http://n.sinaimg.cn/sinanews/eb9bf575/20190108/TouXiang120.png)
![](http://n.sinaimg.cn/sinanews/eb9bf575/20190108/TouXiang120.png)
![](https://tva1.sinaimg.cn/crop.0.0.180.180.50/4151ee85jw1e8qgp5bmzyj2050050aa8.jpg)
![[思考] [思考]](https://n.sinaimg.cn/commnet/2018new_sikao_org.png)
![](http://n.sinaimg.cn/sinanews/eb9bf575/20190108/TouXiang120.png)
APP专享直播
热门推荐
台媒:艺人王大陆因涉嫌逃兵役被逮捕,目前正接受侦讯 收起台媒:艺人王大陆因涉嫌逃兵役被逮捕,目前正接受侦讯
- 2025年02月18日
- 03:44
- APP专享
- 扒圈小记
154,302
载近80人,加拿大一客机着陆时突发事故,机身翻覆现场升起浓烟!
- 2025年02月17日
- 22:08
- APP专享
- 扒圈小记
3,574
美媒:拒绝向马斯克交出数据,美社保局长被撤职
- 2025年02月18日
- 05:36
- APP专享
- 北京时间
3,569
![新浪财经公众号 新浪财经公众号](http://n.sinaimg.cn/finance/72219a70/20180103/_thumb_23666.png)
24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势领涨今天 09:59:57
【6连板威派格(sh603956):公司未与DeepSeeK开展业务合作】威派格(sh603956)发布股票交易异常波动公告称,目前已连续六个交易日涨停,累计涨幅77.34%。公司最新市盈率为200.07倍,显著高于行业水平29.24倍。公司未与DeepSeeK开展业务合作,该事项对当前主营业务开展无实质影响。公司预计2024年出现亏损,基本面未发生变化。敬请广大投资者理性投资,注意二级市场风险。 -
数字江恩今天 09:56:57
abc结束之后,可以是宽幅震荡,为不一定是深幅回踩。这个区分可以看图上的红色通道,只要不跌破红色通道下轨,开始修复,然后构造底背离,就可以宽幅震荡。明日来说,看3300以上是否可以开始修复结构,只要没有持续性下跌,个股还没有系统性风险,今天只算是强力洗盘。 -
数字江恩今天 09:56:50
看5分钟图,今天明显的新高顶背离,是3220上涨以来第二次顶背离。本人在新高之后就把支撑更新到了3346。无论看3346还是第二个箱体低点,今天都跌破了,这代表这3140反弹的abc之c延伸段正式结束。【更多独家重磅股市观点请点击】 -
数字江恩今天 09:56:34
今天前deepseek概念、云概念和近几天上涨的ai医疗概念是重灾区,个股回踩幅度较大。银行坚挺。新能源上午拉起,下午也只是几乎收回涨幅。 -
数字江恩今天 09:56:30
A股两市今日成交6968 + 11023 = 17991 亿人民币,相比昨日缩量近1500亿。大盘今天上午缓慢冲高创出新高后,下午快速下跌,收跌31个点。个股方面,超过85%的个股收绿下跌,3220以来首次大幅下跌个股家数明显超过大幅上涨个股家数。 -
数字江恩今天 09:56:20
宽幅震荡开始 -
北京红竹今天 08:23:54
3、老三样不变任何的方向都不可以一直向上,虽然今天开始调整,但对于DS和人形机器人(sz300024)和铜缆,我还是重点看待。方向不变,但需要掌握节奏,DS目前指数还处于五分钟级别三买区间,急跌洗盘后还会有反复折腾。DS和人形机器人(sz300024),上周五就和大家说了资金已经有变化了,高位股资金出逃,但滞涨品种有资金流入。方向可以不变,但节奏可不能一根筋,一根筋的思维还炒啥股?当然了,当指数调整的时候,大部分投资者是不适合交易的,休息就是最好的交易。有多大的锅、就下多少的米。 -
北京红竹今天 08:23:51
2、调整开始了?我觉得差不多开始了,昨天红竹在午报中强调的就是本周有洗盘的预期,时间窗口就在本周二三,这不,周二就来了。恒生科技指数和创业板还没有跌破防守线,沪指也没有出现五分钟级别三买,客观信号没出现。但高位股筹码松动了,已经非常明显了,就当调整开始看待不会出大错,顶多不赚钱,至少不会亏损。调整的话,看日线级别回落一笔,至少五个新低,五个新低之后上证50ETF、沪深300ETF,到时候可以定投一些。如果恒生科技ETF也能给个至少五个新低,那就漂亮,至少可以给一些投资者再次定投的机会了。毕竟只有恒生科技ETF最有性价比。 -
北京红竹今天 08:23:45
1、缩水辛辛苦苦一个月,一天缩水回到解放前,昨天总利润已经到了3.9%,昨天看到一只DS点火信号,立刻下手买入,代码输入错了,整了个乌龙指,今天亏损出局,总账户损失1%点多。这是白白丢掉的,人家乌龙指都大赚,我这是大亏。再加上昨天买入的DS,买入后直接大涨7%,今天大跌8%。今天还做了加仓,正常交易其实还算OK,也算正常的曲线回落。没有乌龙指的话,总盈利应该在2%以上。就这乌龙指搞的我郁闷呀。【更多独家重磅股市观点请点击】 -
宋谈股经今天 08:03:55
【VIP直播间】近期组合个股教学,今天逆势上涨,想了解布局逻辑的,跟上节奏的!速戳抢购查阅〉〉【更多独家重磅股市观点请点击】【更多独家重磅股市观点请点击】