“百模大战”又起?被Sora激活的全新赛道,会在国内催生“现象级产品”吗

随着中国首部文生视频AI动画片《千秋诗颂》不久前亮相央视,其背后的“创作者”——上海人工智能实验室研发的文生视频大模型“书生·筑梦”宣布以开源的方式授权用户单位免费商用。作为上海人工智能实验室的邻居,在位于徐汇西岸的全国首个大模型生态社区“模速空间”,国内首个多模态大模型备案企业“智象未来”正在攻坚国产多模态大模型“智象视觉”应用落地的“最后一公里”。
阿里、字节跳动等国内大厂也纷纷宣布加码文生视频大模型开发。相较去年,ChatGPT发布3个月后国内厂商才有动作,Sora发布之后,今年文生视频领域的“跟进速度”显然更快。
国内在文生视频领域的快速跟进会否掀起新的“百模大战”?在这条被激活的全新赛道上,我们有机会做出自己的“现象级产品”吗?智象未来创始人兼首席执行官、加拿大工程院外籍院士梅涛日前接受本报记者专访表示,相较于大语言模型,国内外在AI文生视频领域的技术差距并没有外界想象的那么大,仍有追赶机会,而其市场前景很大,“这是一条充满希望、值得全力以赴去拼抢的赛道”。
AI视频技术路线或将涌现不同“解法”
60秒一镜到底、各种镜头随意切换、主角和背景保持了惊人的稳定性……对于Sora这些“惊艳四座”的绝技,梅涛用“领先国内一个身位,但没有突破代际差距”来评价。
参考无人驾驶汽车的评价体系,梅涛将文生视频模型在影视行业的应用分为L1-L5五个档次。他认为当前主流的文生视频企业,包括Sora在内,都处于L2水平。所谓L2,即AI具备了单镜头生成的能力。

Sora的出现让影视、广告等行业感到危机四起,但在梅涛看来,Sora想要颠覆影视业,还需要具备多镜头生成能力(L3)、讲好一个与现实逻辑相符的故事的能力(L4),以及具备视觉、音效、灯光等一体化的能力(L5)。“在L2阶段还有大量难点,比如目前它还无法生成真人的高清微表情,也无法生成多人间自然的拥抱、握手等动作,这些能否在短时间内突破还有待观察。”梅涛说。
Sora另一个为业界所谈论的点是用到了DiT(Diffusion Transformer)模型,即以Transformer为主干的扩散模型,但这并非Sora独有。梅涛表示,与大语言模型的技术路线已近趋同相比,文生视频的技术路线尚未收敛。而在视频的底层逻辑上,有多种不同的技术路线,未来很可能出现新的团队拿出不同的“解法”。
据介绍,文生视频的主流模型框架分为扩散模型和自回归模型,前者的优势在于能更好地结构化并生成较高质量画质的视频内容,后者则更适合长上下文语境理解,天然适配多模态对话的生成方式。
“从视频生成的技术架构上看,Sora并没有太大创新,但其背后团队强大的工程能力帮我们排除了一些错误选项。”梅涛说,智象未来将一边追赶、一边探索差异化的发展道路——局部可控性+超高清(4K/8K),这一点是影视行业的刚需,也是目前Sora无法做到的。眼下,智象未来团队已经完成图像DiT模型130亿参数规模的训练,预计3月底将实现视频基础模型的大幅升级。
文生视频模型的落地速度可能后来居上
梅涛告诉记者,这些天来找他的人络绎不绝,都是来谈合作的。基于底层多模态大模型“智象视觉”,一年前,智象未来对外发布文生图/视频应用产品“千象”(Pixeling),至今已积累了5万活跃用户和200多万次API(应用程序编程接口)。这从一个侧面表明,尽管文生视频模型的发布比大语言模型晚,但其落地速度可能更快。梅涛分析,这背后的原因主要有两点:一是图像视频带给人的冲击力更大,二是以Midjourney为代表的公司已经证明图像AIGC(生成式人工智能)的商业模式可行。

在文生视频领域,梅涛认为国内有机会做出自己的“现象级产品”,而实现方式就是“模型+应用”的双迭代。以智象未来为例,在模型方面,“千象”保持着每月一次的迭代频率,并将以4秒—7秒—15秒的进程倍速推进;而应用方面的迭代,主要依靠海量用户的反馈。他表示,短视频,尤其是科幻类短视频,将成为文生视频的最佳训练素材,“今年我们很可能看到一批科幻作家的短篇小说被AI搬上屏幕”。
发展最快的路径不一定是“最终答案”
“当下,大模型中的‘规模法则(Scaling law)’越来越成为行业共识。”梅涛说。所谓“规模法则”就是模型能力与模型尺寸之间的正相关性,其中三个关键参数分别是模型大小、数据量和计算能力。
既然公式已定,那么发展大模型就从一件“拼思路”的事变成一件“拼操作”的事,算法在其中起到的作用越来越小。而谁的工程技术能力越强,谁能搭建起协调性更好的架构,谁拥有的数据量越大,谁的大模型能力就越强。

因此,对于技术路线已基本收敛的大语言模型,梅涛认为可采用集中力量办大事的思路,力推一两个大语言模型。据他观察,市场已经在完成这一“收束”——经过一年的“百模大战”,国内大多数模型已转向垂类模型发展,只有几家大厂还在推进各自的大模型,这一趋势与美国一致。
对于多模态大模型,梅涛认为目前这一领域的技术路径尚未收敛,可适当保持多一点的可能性。比如,智象未来在主攻DiT的同时,仍在小规模尝试其他路径。在他看来,通往AGI(通用人工智能)的路径有很多条,尽管大语言模型目前发展得最快、最像“正确答案”,但它不一定是“最终答案”。
在如何推进我国大模型产业发展这个问题上,梅涛的答案与DiT论文的作者、纽约大学助理教授谢赛宁一致,也就是人才第一、数据第二、算力第三。“AI人才最看中什么?是平台。”梅涛说,上海应提供更多机会,吸引全球AI人才聚集,让他们相互交流碰撞,将自己的想法变成现实。
图:袁婧摄
编辑:沈湫莎
责任编辑:任荃

扫码下载文汇客户端
- +1