您现在的位置是：首页 > 人工智能 >

创企VS大厂混战AI视频生成

2024-07-05 17:02:01作者：于帆来源：生成式

摘要AI视频生成是人工智能领域时兴的话题。Sora横空出世后，国内号称对标Sora的AI视频生成大模型层出不穷，卷demo、卷时长、卷功能，浩浩荡荡的 ...

AI视频生成是人工智能领域时兴的话题。Sora横空出世后，国内号称对标Sora的AI视频生成大模型层出不穷，卷demo、卷时长、卷功能，浩浩荡荡的国产类Sora队伍日渐壮大。

哪家大模型真的卷出了新意，将真正开启国产的Sora时刻？国内企业AI视频生成能力距离国际领先水准还有多远？技术狂欢的尽头，能找到盈利模式负担高昂的算力成本吗？

国产企业加码AI视频生成

灼识咨询报告显示，全球AI市场的市场规模预计于2027年达到5624亿美元，中国AI市场的规模预计于2027年达到6448亿元。

今年完成两轮亿元级融资的爱诗科技，近期发布了“MagicBrush运动笔刷”工具，用户可以通过笔刷涂抹区域和绘制轨迹，精准控制视频内容的运动方式，如神笔马良般实现“马斯克向你点头示意”“哈利波特挥动魔杖”等效果。

6月完成数亿元Pre-A轮融资的生数科技，前不久发布性能全面对标Sora的“长时长、高一致性、高动态性”的全自研视频生成模型Vidu，支持一键生成长达16秒、分辨率高达1080P的高清视频内容，对中国元素的理解超过Sora。

6月6日，快手推出可灵文生视频大模型，并直接开放测试的产品级应用快影APP。在其“AI生视频”页面，文字描述框中不仅有提示词实例还能随机生成提示词以供测试。目前，申请测试的用户超过13万人。可灵官网demo中，有诸多对标Sora的案例，包括“小孩吃汉堡”“气球人”等，细节表现强于Sora。

6月12日，极佳视界联合清华大学自动化系正式发布我国首个超长时长、高性价比的Sora级视频生成大模型“视界一粟YiSu”，拥有模型原生的16秒超长时长，可生成1分钟以上视频。

此外，阿里巴巴推出高保真图像视频生成框架AtomoVideo，百度推出视频生成模型UniVG，腾讯推出视频生成模型VideoCrafter2，字节跳动推出视频生成模型MagicVideo-V2。视觉内容AI创作平台右脑科技，AI视频生成SaaS（软件即服务）服务商布尔向量，AI电影制作平台的Morph Studio，李白AI实验室等初创企业也在视频生成领域展示野心。相比科技大厂，创业公司在落地产品上更快一步。

AI视频生成技术面临两种选择

生成式AI视频技术早期依赖于生成式对抗网络（GAN）和变分自编码器（VAE）两种模型，但生成内容受限较多。此后演变成两种技术路线，一是专门用于视频领域的扩散模型DiffusionModel，二是Transformer模型。

扩散模型通过向原始噪声图像逐步引入随机性来生成图像或视频。基于Transformer架构的大语言模型，通过理解视频内容的时间和空间关系来生成视频。

Sora的核心技术架构DiT则是将扩散模型和大语言模型融合。不同于ChatGPT的开源，Sora并未公布技术细节，因此国产路线需要走自研模式。生数科技的Vidu采用原创的融合架构U-ViT，其提出时间早于DiT。快手的可灵整体框架采用DiT结构，且在此基础上，对模型中的隐空间编/解码、时序建模等模块进行了升维。视界一粟YiSu采用融合LLM和扩散模型的自研架构，在多模态融合、训练效率、推理效率、模型效果等方面达到优化。

要成为国产Sora，技术上认准方向是第一步，如何走出特色道路同样重要。爱诗科技创始人王长虎表示，对于AI视频生成的突破问题，第一，需要对运动和世界进行更好的建

模，提升AI视频生成的成功率；第二，生成更长视频；第三，学会如何运用镜头语言并把其合理地放在模型里。

算力成本推高商业落地门槛

视频生成因涉及时间序列上的数据，需要同时处理空间和时间维度的信息，所以需要大量的计算资源来处理复杂的算法和数据。模型规模与性能之间存在正相关关系，未来随着技术的进步，模型的参数量变大，这将进一步提高对算力和资金的需求。

市场调查机构Factorial Funds报告显示，Open AI部署Sora在峰值期需要72万片英伟达H100AI加速卡，以每片3万美元成本计算，72万片需要216亿美元（约合人民币1568.22亿元）。AI视频生成的成本每秒约为1美元。

AI视频生成该向何处寻找盈利模式？

生数科技指出，AI视频生成可先在付费能力强和成本相对可控的B端场景落地。生成式AI视频在广告创作、影视制作等方面都存在直接的落地场景。爱奇艺建设的专属数字资产库，让内容项目的数字资产在库里留存并且确认版权，将来可二次授权应用。目前爱奇艺在诸多剧集都用上了自主研发的IQ Stage虚拟拍摄系统。但在其最近一部播出的剧集中，观众表示虚拟拍摄部分抠图感严重。

爱诗科技的思路则是聚焦C端。王长虎表示，AI视频生成领域未来会有千姿百态的应用模式，模型拥有者和专注应用层的公司都有机会。爱诗科技广泛收集国内外用户反馈用以迭代底层模型，最终实现AI Native视频产品应用闭环。海外流量检测网站similarweb数据

显示，目前，爱诗科技海外产品PixVerse与国际头部视频生成产品Runway和Pika的用户规模处于同等量级，用户群包括影视、游戏、广告主、艺术创作者等各行各业的人。

从业内竞争看，各大厂商的技术方向已无太大区别，但AI视频生成模型的资金量与文本模型不在同一量级。一方面，科技大厂在拼数据拼资本上更有竞争力，另一方面，先行一步推动产品落地的创企们走出了自己的上升曲线。

(本文不涉密)
责任编辑：于帆

上一篇：100%的国产大模型，距离世界顶级有多远

下一篇：中国工程院院士王坚：未来十年人工智能的发展前景激动人心