您现在的位置是:首页 > 人工智能 >

​创企VS大厂 混战AI视频生成

2024-07-05 17:02:01作者:于帆来源:生成式

摘要AI视频生成是人工智能领域时兴的话题。Sora横空出世后,国内号称对标Sora的AI视频生成大模型层出不穷,卷demo、卷时长、卷功能,浩浩荡荡的 ...

AI视频生成是人工智能领域时兴的话题。Sora横空出世后,国内号称对标Sora的AI视频生成大模型层出不穷,卷demo、卷时长、卷功能,浩浩荡荡的国产类Sora队伍日渐壮大。


哪家大模型真的卷出了新意,将真正开启国产的Sora时刻?国内企业AI视频生成能力距离国际领先水准还有多远?技术狂欢的尽头,能找到盈利模式负担高昂的算力成本吗?

国产企业加码AI视频生成

灼识咨询报告显示,全球AI市场的市场规模预计于2027年达到5624亿美元,中国AI市场的规模预计于2027年达到6448亿元。

今年完成两轮亿元级融资的爱诗科技,近期发布了“MagicBrush运动笔刷”工具,用户可以通过笔刷涂抹区域和绘制轨迹,精准控制视频内容的运动方式,如神笔马良般实现“马斯克向你点头示意”“哈利波特挥动魔杖”等效果。

6月完成数亿元Pre-A轮融资的生数科技,前不久发布性能全面对标Sora的“长时长、高一致性、高动态性”的全自研视频生成模型Vidu,支持一键生成长达16秒、分辨率高达1080P的高清视频内容,对中国元素的理解超过Sora。

6月6日,快手推出可灵文生视频大模型,并直接开放测试的产品级应用快影APP。在其“AI生视频”页面,文字描述框中不仅有提示词实例还能随机生成提示词以供测试。目前,申请测试的用户超过13万人。可灵官网demo中,有诸多对标Sora的案例,包括“小孩吃汉堡”“气球人”等,细节表现强于Sora。

6月12日,极佳视界联合清华大学自动化系正式发布我国首个超长时长、高性价比的Sora级视频生成大模型“视界一粟YiSu”,拥有模型原生的16秒超长时长,可生成1分钟以上视频。

此外,阿里巴巴推出高保真图像视频生成框架AtomoVideo,百度推出视频生成模型UniVG,腾讯推出视频生成模型VideoCrafter2,字节跳动推出视频生成模型MagicVideo-V2。视觉内容AI创作平台右脑科技,AI视频生成SaaS(软件即服务)服务商布尔向量,AI电影制作平台的Morph Studio,李白AI实验室等初创企业也在视频生成领域展示野心。相比科技大厂,创业公司在落地产品上更快一步。

AI视频生成技术面临两种选择

生成式AI视频技术早期依赖于生成式对抗网络(GAN)和变分自编码器(VAE)两种模型,但生成内容受限较多。此后演变成两种技术路线,一是专门用于视频领域的扩散模型DiffusionModel,二是Transformer模型。

扩散模型通过向原始噪声图像逐步引入随机性来生成图像或视频。基于Transformer架构的大语言模型,通过理解视频内容的时间和空间关系来生成视频。

Sora的核心技术架构DiT则是将扩散模型和大语言模型融合。不同于ChatGPT的开源,Sora并未公布技术细节,因此国产路线需要走自研模式。生数科技的Vidu采用原创的融合架构U-ViT,其提出时间早于DiT。快手的可灵整体框架采用DiT结构,且在此基础上,对模型中的隐空间编/解码、时序建模等模块进行了升维。视界一粟YiSu采用融合LLM和扩散模型的自研架构,在多模态融合、训练效率、推理效率、模型效果等方面达到优化。

要成为国产Sora,技术上认准方向是第一步,如何走出特色道路同样重要。爱诗科技创始人王长虎表示,对于AI视频生成的突破问题,第一,需要对运动和世界进行更好的建

模,提升AI视频生成的成功率;第二,生成更长视频;第三,学会如何运用镜头语言并把其合理地放在模型里。

算力成本推高商业落地门槛

视频生成因涉及时间序列上的数据,需要同时处理空间和时间维度的信息,所以需要大量的计算资源来处理复杂的算法和数据。模型规模与性能之间存在正相关关系,未来随着技术的进步,模型的参数量变大,这将进一步提高对算力和资金的需求。

市场调查机构Factorial Funds报告显示,Open AI部署Sora在峰值期需要72万片英伟达H100AI加速卡,以每片3万美元成本计算,72万片需要216亿美元(约合人民币1568.22亿元)。AI视频生成的成本每秒约为1美元。

AI视频生成该向何处寻找盈利模式?

生数科技指出,AI视频生成可先在付费能力强和成本相对可控的B端场景落地。生成式AI视频在广告创作、影视制作等方面都存在直接的落地场景。爱奇艺建设的专属数字资产库,让内容项目的数字资产在库里留存并且确认版权,将来可二次授权应用。目前爱奇艺在诸多剧集都用上了自主研发的IQ Stage虚拟拍摄系统。但在其最近一部播出的剧集中,观众表示虚拟拍摄部分抠图感严重。

爱诗科技的思路则是聚焦C端。王长虎表示,AI视频生成领域未来会有千姿百态的应用模式,模型拥有者和专注应用层的公司都有机会。爱诗科技广泛收集国内外用户反馈用以迭代底层模型,最终实现AI Native视频产品应用闭环。海外流量检测网站similarweb数据

显示,目前,爱诗科技海外产品PixVerse与国际头部视频生成产品Runway和Pika的用户规模处于同等量级,用户群包括影视、游戏、广告主、艺术创作者等各行各业的人。

从业内竞争看,各大厂商的技术方向已无太大区别,但AI视频生成模型的资金量与文本模型不在同一量级。一方面,科技大厂在拼数据拼资本上更有竞争力,另一方面,先行一步推动产品落地的创企们走出了自己的上升曲线。


(本文不涉密)
责任编辑:于帆

站点信息

  • 运营主体:中国信息化周报
  • 商务合作:赵瑞华 010-88559646
  • 微信公众号:扫描二维码,关注我们