文 | 新浪科技 罗宁
近日,随着OpenAI的Sora模型以及Google DeepMind发布的Veo 2模型正式发布,视频生成模型再次受到公众关注。而在国内,图森未来也正式发布了“Ruyi”图生视频大模型,这是在官宣《三体》系列的动画长篇电影项目之后发布的首款图生视频大模型产品,新浪科技也在第一时间进行了简单的上手评测。
评测之前需要了解的是,本次的Ruyi大模型产品还处于初级阶段,目前,需要用户提供一张图片作为输入,并可以选择输出时长、输出分辨率、运动幅度和镜头移动方向等选项,Ruyi会根据输入的图像输出一个不超过5秒的视频。并且,Ruyi支持多分辨率、多时长生成,最小384*384,最大1024*1024分辨率,任意长宽比,最长120帧/5秒的视频生成。此外,Ruyi还可以支持最多5个起始帧、最多5个结束帧基础上的视频生成,通过循环叠加可以生成任意长度的视频。Ruyi提供了4档运动幅度控制和5种镜头控制,方便用户对整体画面的变化程度进行控制。
风景画面的理解和效果
首先测试的是Ruyi对风景照片的处理能力。风景照之所以被视为较简单的测试对象,是因为在这类场景中,无论是建筑、自然风光还是天空云朵,AI大模型通常展现出较强的理解能力。Ruyi的表现确实不负众望,在处理几张风景照片时,无论是城市建筑风光还是自然山水,Ruyi都能实现精细且生动的动态效果。
真实人物的处理效果
在对真实人物画面的处理上,Ruyi展现了其在动态视频生成中的多样性和挑战。我们选择了几张具有代表性的电影画面进行测试,以评估Ruyi在处理不同风格和情感表达时的能力。
首先,我们选取了《哈利波特与魔法石》中的一张场景,其中哈利波特和海格的动作被转换成自然流畅的动态画面。Ruyi不仅捕捉到了角色的基本动作,还增加了细节上的动态处理,使得原本静态的画面变得更加生动。
接着,我们测试了《天使爱美丽》中主角艾米莉的笑容。Ruyi成功地将这一经典笑容从静态转变为动态,保留了面部微表情的生动性,展现了模型在处理复杂人脸表情方面的潜力。
最后,我们尝试了《唐伯虎点秋香》中周星驰的夸张动作场景。虽然Ruyi在生成的效果中达到了基本的动作要求,但在捕捉和再现周星驰特有的夸张风格上,效果尚显中规中矩,未能完全体现出角色的夸张感。这一点提示了Ruyi在处理特定风格和文化背景下的表演时,可能需要进一步的优化和学习。
萌宠风格化图片的视频化
在测试Ruyi对风格化图片的处理能力时,我们首先选择了一张社交网络上广受欢迎的萌宠猫咪照片。从生成效果来看,Ruyi能够为这张静态图片注入动态元素,创造出猫咪在画面中活动的假象。Ruyi在保持萌宠的可爱特质的同时,为其添加了自然的动作,使得画面更加生动。
动漫风格化图片的视频化
除了萌宠照片,我们还测试了一张钢铁侠的动漫照片。Ruyi在处理这张图片时,成功地生成了不同的动作,使得画面更加精细和生动。然而,我们也注意到了一些违和感——钢铁侠在空中飞行的动作看起来更像是在跑步。这表明Ruyi在理解图片内容和生成与之匹配的动作时,仍有一定的提升空间。对于动漫和游戏领域,这种风格化图片的视频化能力尤为重要,因此Ruyi在未来的迭代中需要对这一点进行更多的优化和学习。
技术架构与性能
据悉,Ruyi大模型目前对用户的硬件要求仍旧较高,在现场,通过4090显卡渲染的时间是3-5分钟时间,而云端的方案目前尚未能提供。
在技术架构方面,Ruyi基于DiT架构,由Casual VAE模块和Diffusion Transformer组成,前者负责视频数据的压缩和解压,后者负责压缩后的视频生成。模型的总参数量约为7.1B,使用了约200M视频片段进行训练,展现了其强大的数据处理能力。
Ruyi的训练过程共分为了4个阶段,从256分辨率的预训练到图生视频的训练,每个阶段都针对不同的数据集和分辨率进行优化。图森未来表示,Ruyi将持续聚焦在如何真正解决行业痛点,特别是在动漫和游戏内容的开发周期和开发成本上。
结尾:为创作者提供更加灵活的选择
在与新浪科技交流过程中,图森未来表示,他们计划在2024年第四季度发布面向社区爱好者和创意团队的开源模型Mini-7B,并在2025年上半年推出针对专业内容制作团队的闭源模型Standard-30B,提供私有化部署。
就在12月19日,图森未来正式启用全新品牌CreateAI,并发布多项在生成式AI领域的重大进展。CreateAI宣布获著名武侠IP《金庸群侠传》正版授权,将开发一款大型武侠开放世界RPG游戏。CreateAI还将与著名动画导演河森正治,以及顶级动画制作公司株式会社白组展开合作,利用AIGC技术推动创作者在展示宏大宇宙文明方面实现更多突破。与此同时,CreateAI还发布了其首个大模型产品“Ruyi”,该模型定位于开源图生视频领域。作为其自研AI基础设施的底层核心,公司将基于“Ruyi”打造多个针对游戏和动画制作的AI生成式工具。
图森未来的Ruyi大模型,展示了其在孵化生成式AI工具方面的雄心。尽管Ruyi在手部畸形、多人时面部细节崩坏、不可控转场等问题上仍有改进空间,但据新浪科技了解,图森未来已经在积极解决这些问题,而从今年8月宣布进军AI大模型领域,并开发《三体》动画电影到现在,短短三个月时间,Ruyi就正式发布,可以预见的是,在动画制作和游戏开发方面,图森未来正在加速,相信本次开源模型的发布,将为不同需求的创作者提供更加灵活的选择。
责任编辑:何俊熹
APP专享直播
热门推荐
韩媒:韩国客机失事现场发现波音737操作手册部分页面,纸上可见仓促撕下痕迹 收起韩媒:韩国客机失事现场发现波音737操作手册部分页面,纸上可见仓促撕下痕迹
- 2025年01月03日
- 12:54
- APP专享
- 广西台新闻910
- 4,940
供养女友开销,00后男子偷千个水箱浮球牟利10万元被刑拘
- 2025年01月03日
- 05:44
- APP专享
- 广西台新闻910
- 2,908
银川24小时发生11次地震,地震局:将持续做好地震监测
- 2025年01月03日
- 09:15
- APP专享
- vsta
- 2,439
24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势领涨今天 00:42:38
=加入潜伏擒牛VIP,享四大顶级服务=【1】购买VIP自动加入私密小直播间!【2】每周3-5只超短金股调入调出服务,适合实时看盘的投资者!【3】每周一份高端内部绝密文章:包含近期布局、热点版块、指数预判!【4】每月2~3只高端中线金股服务!(VIP超短、中线个股均有涉足,让上班族也能跟上VIP节奏!)现月课7.5折,1288元!季课6.9折,3558元,续费季度更划算!新朋友可先月课体验!点网址,直接买,订购地址:【更多独家重磅股市观点请点击】【更多独家重磅股市观点请点击】 -
趋势领涨今天 00:42:12
三、美股三大指数集体收涨 特斯拉创去年11月12日以来最大单日涨幅美股高开高走,三大指数集体收涨。纳指涨1.77%,本周累跌0.51%;标普500指数涨1.26%,本周累跌0.48%;道指涨0.8%,本周累跌0.6%。其中,纳指、标普500指数终结日线5连跌,道指终结日线4连跌。特斯拉涨超8%,创去年11月12日以来最大单日涨幅;英伟达涨逾4%,创去年11月20日以来最大单日涨幅。昨晚美股大涨,上涨的主要是特斯拉和英伟达,对标A股市场就是科技题材股,A股科技股已经连续大跌,三天普遍跌幅超过20%,短期有望出现反弹了。十一之前,大盘连续大涨,然后有人出来提示要慢牛、不要疯牛,随后就没有牛!现在大盘已经连续大跌三天,昨晚居然没有人说话,难道都在憋大招吗?看周末有没有其他消息吧,如果没有利好,大盘还是要奔向3100点附近的! -
趋势领涨今天 00:42:07
最近大家心情都不好,A股市场迎来了近10年来第一个没有红盘报收的年度收官,2025年又出现了开门.黑,重点是最近三天沪市下跌6.3%;深市跌7.2%,创业板跌8.6%,这还只是大盘,个股就更加惨不忍睹了,普遍跌幅都是超过15%,如果你是满仓操作,这三天应该还回了2024年所有的利润,有的还是倒亏!说好的提振股市,刺激消费呢?结果直接在股市消费了,这还搞毛!昨天收盘以后,港股出现了回升,晚间美股大涨,中概股、富时A50都是上涨的,只有A股是大跌的,好像都不跟A股玩了,这是怎么了?一、央行:下阶段根据国内外经济金融形势和金融市场运行情况 择机降准降息1、2024年以来宏观调控力度加大,稳健的货币政策灵活适度、有效。2、会议研究了下阶段货币政策主要思路,建议加大货币政策调控强度,提高货币政策调控前瞻性、针对性、有效性,根据国内外经济金融形势和金融市场运行情况,择机降准降息。3、用好证券、基金、保险公司互换便利和股票回购增持再贷款等新设立工具,维护资本市场稳定。昨晚央行又开会了,会议再次提到了股市,要利用互换便利和股票回购增持再贷款等新设立工具,维护市场稳定,同时也提出了择机降息降准,为了股市,央妈也是操脆了心。但现实情况是,这些消息都是市场预知的,对现在的股市提振作用不大,股市走弱的主要原因还是量化升级,大小非减持卖公司。二、加大对药品医疗器械研发创新的支持力度 提高药品医疗器械审评审批质效完善审评审批机制全力支持重大创新,加大中药研发创新支持力度,发挥标准对药品医疗器械创新的引领作用,完善药品医疗器械知识产权保护相关制度,积极支持创新药和医疗器械推广使用。近期唯一走强的就是医药板块,该消息主要利好的是创新药、医疗器械和中药板块。医药板块已经连续大跌了三年,在行情弱势的情况下,短期出现反弹的概率还是比较大的。 -
趋势领涨今天 00:42:02
大家早上好!趋势为王,做股海的领航者,新的一天,新的战斗,欢迎你来到本直播室!新进的朋友请注意点赞,收藏本直播室,以方便你下次观看,谢谢大家的支持!【更多独家重磅股市观点请点击】 -
数字江恩2025-01-03 10:06:35
所以,简单来说,大盘连续三天大跌,破坏的形态,必须看5周线、10周线压力。下周只要不是直接站上5周线、10周线(很接近),那么会反复震荡修复之后才有反攻,这个震荡至少需要2周来完成。而下周的机会,最多就是构造一次15分钟级别反弹。 -
数字江恩2025-01-03 10:06:31
5分钟图来看,黄白线并未拉回零轴。下周初正常需要把黄白线拉回零轴,然后回落底背离,才可以开始15分钟级别的反弹。【更多独家重磅股市观点请点击】 -
数字江恩2025-01-03 10:06:18
15分钟图来看,3494下跌结构,其实没有底背离。这里除非直接反V,站上5周线10周线去突破图上的蓝色轮峰线,否则其实至少会走完第4、第5轮后,才能反攻本周周阴线高点。下周最多看能否形成第4轮反弹结构。【更多独家重磅股市观点请点击】 -
数字江恩2025-01-03 10:06:07
30分钟图上,本周跌破了红色轮谷线,看似很恐怖,但其实就是重新跌回之前突破的蓝色轮峰线,同时3200密集成交区底部。只是这里红色轮谷线共振了5周线、10周线压力,下周难以重新站稳,需要时间。【更多独家重磅股市观点请点击】 -
数字江恩2025-01-03 10:05:52
大盘10月8日拉升完第一轮之后,3200-3500区间是密集成交区间。本周快速砸盘到密集区成交区间低位,这里割肉毫无意义,等待指数修复后反弹甚至反V本周下跌,可能需要整个1月来实现了。 -
数字江恩2025-01-03 10:05:47
大盘本周虽然只有4个交易日,但是大跌188个点,创出了2019年以来最大周线跌幅。周长阴直接达到了一吃多的效果,下破了2689以来的重要支撑均线5周线和10周线。目前5周线3355,10周线3342,均已转向,变为下周最重要的压制均线。