视频生成模型百花齐放:腾讯混元正式入局,但行业仍处于早期
今年2月,OpenAI发布了视频生成模型Sora。尽管直到今天,Sora都未向公众开放使用,但它的出现,正式拉开了视频生成时代的大幕。
自Sora问世以来,视频生成模型开始百花齐放,从上半年的快手可灵、Runway Gen-3、Luma Dream Machine,到下半年的生数科技Vidu、智谱清影、字节跳动PixelDance、MiniMax海螺等,这些产品的出现,都引起了市场的广泛关注。
12月3日,腾讯混元大模型宣布上线视频生成能力,正式加入竞争激烈的视频生成赛道。腾讯的入局,不仅为市场注入了新的活力,也意味着这一技术有望在更广泛的应用场景中得到验证。
腾讯混元相关负责人向 21 世纪经济报道记者表示,混元视频生成模型支持中英文双语输入、多种视频尺寸以及多种视频清晰度,相比市面上其他视频生成模型,混元在文本视频一致性、运动质量和画面质量等方面,表现会更加出色。
值得一提的是,在发布混元视频生成模型的同时,腾讯也宣布将其开源,包含模型权重、推理代码、模型算法等完整模型,参数量为130亿,是当前最大的视频开源模型。
此前,腾讯混元已经开源了旗下文生文、文生图和3D生成大模型。至此,腾讯混元系列大模型已实现全面开源。
DiT架构成为主流
在Sora的启发下,DiT架构,一种基于Transformer架构的扩散模型,正成为视频生成模型采用的主流技术方案,腾讯混元视频生成模型也是基于该架构。
在业内,用于理解扩散模型最常听见的比喻,是来自意大利文艺复兴雕塑家米开朗琪罗的一句话:“塑像本来就在石头里,我只是把不需要的部分去掉。”
扩散模型的工作原理,就是去除不需要的部分。而如何判断该去掉哪些石头以及怎么去掉这些石头,这个思考框架就是“U-Net架构”和“Transformer架构”的核心区别。
扩散模型过去最常用的U-Net架构,它的思路是逐步缩小图像,然后计算图像的相似性。但是,随着模型参数量的增加,U-Net模型容易陷入性能瓶颈,并且难以灵活适配多模态任务需求。
在DiT架构的基础上,混元视频生成模型也进行了许多升级。
比如混元视频生成模型适配最新一代大语言模型MLLM 作为文本编码器,因此具备了更强大的语义跟随能力,可以更好地应对多个主体描绘,实现更加细致的指令和画面呈现。
另外,混元视频生成模型采用了统一的全注意力机制,使得每帧视频的衔接更为流畅,并能实现主体一致的多视角镜头切换。而通过先进的图像视频混合VAE(3D 变分编码器),混元让模型在细节表现有明显提升,特别是小人脸、高速镜头等场景。
视频生成尚处于早期
虽然市场上已经有许多视频生成模型,但从用户的感知来看,视频生成模型的发展进度远不及大语言模型。
腾讯研究院近期发布的一份研究报告,便指出了视频生成模型现阶段的多个不足之处。
首先是视频生成的成本过高。受底层扩散过程的制约,生成一次视频需要多步迭代才能完成,对于动辄超百亿参数的视频生成模型,这可能意味着尖端显卡数十秒甚至数分钟的运转。
数据显示,目前,Runway Gen-3 Alpha Turbo生成一条10秒的768x1280分辨率的视频价格为0.5美元,可灵AI生成一条10秒的高品质模式视频价格为7元人民币。
而同样的价格若用于大语言模型的调用,大致可以生成百万量级的token。因此,视频生成的成本远未达到人人可用的阶段。
除此之外,报告认为“模态不全,缺少声音”,以及“尚未攻克稳定的长视频”都是视频生成模型未来亟需解决的问题。
目前,绝大多数视频生成模型仅支持生成5-10秒的视频,混元视频生成模型的最大长度也是5秒。大家都不做长视频的生成,一方面有算力成本的考虑,但另一方面,也是受到训练数据的掣肘。
腾讯研究院认为,网络公开视频和版权影视作品基本都是经原始拍摄素材剪辑而来,成片中单镜头时长往往也就3秒左右,远不足以让视频模型充分观察到物体的长期运动,更不要说底层物理规律的学习。
当然,这些问题也是整个行业在努力改善的方向。腾讯混元相关负责人向记者透露,混元视频生成模型很快会进行迭代,推出包括视频配音以及图生视频等在内的能力。
而长期看来,随着技术的迭代、训练数据的丰富以及模型开源化带来的生态效应,视频生成模型也将逐步成熟。当AI能够创作出更加复杂且细腻的视频内容时,相信很多行业也将因此迎来变革。
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。
推荐
-
第一届贵阳大数据科创城创新创意应用大赛暨2024年“四城”联动创新创业大
11月8日,第一届贵阳大数据科创城创新创意应用大赛暨2024年“四城”联动创新创业大赛启动仪式在贵安新区举行。 大赛将对获奖队伍给予奖金支持和政策支持。针对获...2024-12-04 05:04 -
美利肯地材亚太区高级设计与市场总监LizzieKang:美利肯将在中国市
“参加进博会对美利肯地材业务产生了显著作用。自2007年投产以来,我们位于张家港的工厂在服务整个亚太地区特别是中国市场方面发挥了重要作用。”美利肯地材亚太区高级...2024-12-04 04:05 -
中信建投证券06066:“24信投10”及“24信投11”票面利率分别为
:“24信投10”及“24信投11”票面利率分别为1.91%及2.10%) 智通财经APP讯,中信建投证券发布公告,公司2024年面向专业投资者公开发行公司债...2024-12-04 03:34 -
平安健康险斩获“年度卓越人寿保险公司”“最佳客户满意度健康保险公司”两大
近日,由每日经济新闻主办的“2024年度中国金融发展年会暨第15届金鼎奖颁奖礼”,以及第一财经主办的“2024第一财经金融价值榜·金融峰会”相继在北京、上海举行...2024-12-04 02:19 -
美股异动与英伟达扩展在液冷系统上的合作中金科工业ZJK.US盘前一度涨近
智通财经APP获悉,周二,中金科工业美股盘前一度涨近690%,截至发稿,盘前涨幅收窄至247%,报22美元。消息面上,在最近的一次会议上,中金科工业在英伟达位于...2024-12-04 01:00
最新
图文
-
德国统计局表示,今年第一季度进口电动汽车中,中国生产的汽车占比28.2%,排名第二。在进口国家中,中国超过了韩国。这比去...[详情]
-
初夏悄然而至,正是出游好时节。这不,正适合跟着斯柯达柯迪亚克、明锐Pro前往美丽鹭岛,开启一场海滨之旅。好时节又逢理想“...[详情]
-
行至巅峰,也向山海。5月25日,在世界最高峰——珠穆朗玛峰下,通过长安马自达官方直播间和浙江卫视频道和Z视介平台,“山系...[详情]
-
近日,北美年度风云车(简称NACTOY)公布了2023年度汽车名单。其中起亚纯电动汽车EV6荣获NACTOY评审团授予的...[详情]
-
对于汽车厂家来说,紧凑型SUV市场是必争之地。不管是中国品牌,还是合资对手,都将这块市场视为“一...[详情]
-
车评观察《车评社》前言:作为自主一线豪华品牌,红旗汽车在国内市场的环境可谓是强敌环伺,但即便如此...[详情]
-
回首2022年,新能源汽车市场可谓炙手可热。在这条快速成长的轨道上,各路车企纷纷抢滩登陆,在市场中抢占先机。伴随着竞争愈...[详情]
-
今日,极氪智能科技旗下全球首款原生纯电豪华MPV极氪009如期开启交付。首批用户在北京、上海、杭州、南京等城市的极氪交付...[详情]