您的位置:首页 > 科技

大模型混战升级,腾讯混元上线文生视频能力并宣布开源

2024年12月04日 14:46:17 来源: 北京日报 作者:袁璐

大模型在文生视频赛道的混战再度升级。12月3日,腾讯混元大模型正式上线并开源文生视频能力,支持中英文双语输入,一句话就能生成视频。据介绍,此次开源的视频生成大模型,参数量130亿,是当前最大的视频开源模型。

根据演示视频,记者看到,该大模型生成的视频写实度颇高,生成的画面不容易变形。在镜面或镜子场景中,可以做到镜面反射动作和外面同步,光影反射基本符合物理规律。

值得注意的是,此次大模型的文生视频能力开源。腾讯表示,本次开源包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费使用和开发生态插件。普通用户可在腾讯元宝APP-AI应用-AI视频中提交申请试用,企业客户可通过腾讯云提供服务接入,API同步开放内测申请。

从年初以来,腾讯混元系列模型的开源速度不断加快。此前,该系列大模型已经开源了旗下文生文、文生图和3D生成大模型。至此,该系列大模型已实现全面开源。

近段时间以来,视频生成大模型赛场如火如荼。生数科技打造的视频大模型Vidu上线,面向用户开放文生视频和图生视频两大功能;智谱AI正式发布视频生成大模型“清影”;商汤发布人物视频生成大模型Vimi;阿里达摩院推出一站式AI视频创作平台“寻光”;快手可灵AI正式上线网页端,并开源可控人像视频生成框架……

“视频的本质可以看成是多张图片的连续排布放映,在文生图大模型中,最被人们熟知的技术是扩散模型,它可以根据输入的文字描述,获取数据的内在结构和分布规律,从而生成单张图片。”一名业内人士解释称,在算力有限的情况下,决定视频质量的关键取决于数据的质量和数量,“目前,在视频生成大模型的比拼中,对物理世界规律的理解、高分辨率、镜头动作连贯性以及时长等,都是行业激战且有待提升的重要维度。”

责任编辑:张阿嫱
  • 开放源代码
  • 人工智能
欢迎关注中国城市报微信号
分享到: 

关于我们

城市服务

报社业务


版权所有 违者必究   Copyright © 2016-2026 by www.zgcsb.com. all rights reserved 网站备案号:京ICP备15005404号-4 京公网安备 11010502043907号
互联网新闻信息服务许可证10120190005 举报邮箱: jubao@people.cn  违法和不良信息举报电话: 010-65367114  010-65363263 地址:北京市金台西路2号人民日报社 邮编 100733