您的位置：首页 > 科技

大模型混战升级，腾讯混元上线文生视频能力并宣布开源

2024年12月04日 14:46:17 来源： 北京日报 作者：袁璐

大模型在文生视频赛道的混战再度升级。12月3日，腾讯混元大模型正式上线并开源文生视频能力，支持中英文双语输入，一句话就能生成视频。据介绍，此次开源的视频生成大模型，参数量130亿，是当前最大的视频开源模型。

根据演示视频，记者看到，该大模型生成的视频写实度颇高，生成的画面不容易变形。在镜面或镜子场景中，可以做到镜面反射动作和外面同步，光影反射基本符合物理规律。

值得注意的是，此次大模型的文生视频能力开源。腾讯表示，本次开源包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费使用和开发生态插件。普通用户可在腾讯元宝APP-AI应用-AI视频中提交申请试用，企业客户可通过腾讯云提供服务接入，API同步开放内测申请。

从年初以来，腾讯混元系列模型的开源速度不断加快。此前，该系列大模型已经开源了旗下文生文、文生图和3D生成大模型。至此，该系列大模型已实现全面开源。

近段时间以来，视频生成大模型赛场如火如荼。生数科技打造的视频大模型Vidu上线，面向用户开放文生视频和图生视频两大功能；智谱AI正式发布视频生成大模型“清影”；商汤发布人物视频生成大模型Vimi；阿里达摩院推出一站式AI视频创作平台“寻光”；快手可灵AI正式上线网页端，并开源可控人像视频生成框架……

“视频的本质可以看成是多张图片的连续排布放映，在文生图大模型中，最被人们熟知的技术是扩散模型，它可以根据输入的文字描述，获取数据的内在结构和分布规律，从而生成单张图片。”一名业内人士解释称，在算力有限的情况下，决定视频质量的关键取决于数据的质量和数量，“目前，在视频生成大模型的比拼中，对物理世界规律的理解、高分辨率、镜头动作连贯性以及时长等，都是行业激战且有待提升的重要维度。”

责任编辑：张阿嫱