阶跃星辰宣布开源两款大模型

2025年02月19日 10:48:31 中国城市网王迪

中国城市网上海2月19日电（记者王迪）2月18日，上海阶跃星辰智能科技有限公司（以下简称“阶跃星辰”）开源了两款阶跃Step系列多模态大模型——Step-Video-T2V 视频生成模型和Step-Audio语音模型。

根据企业官方技术报告中的评测结果，阶跃Step-Video-T2V的参数量和模型性能目前在全球开源视频生成领域都处于领先水平；而阶跃Step-Audio则是业内首款产品级的开源语音交互模型。目前已可以在跃问App内体验。

据介绍，阶跃Step-Video-T2V模型的参数量达到300亿，可以直接生成 204 帧、540P 分辨率的高质量视频，这意味着能确保生成的视频内容具有极高的信息密度和强大的一致性。

另一款大模型——阶跃Step-Audio是行业内首个产品级的开源语音交互模型，能够根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达，能和用户自然地进行高质量对话。模型生成的语音具有自然流畅、情商高等特征，同时也能支持不同角色的音色克隆，满足影视娱乐、社交、游戏等行业场景下的应用需求。

此外，由于目前行业内语音对话测试集相对缺失，阶跃星辰自建并开源了多维度评估体系 StepEval-Audio-360 基准测试，从角色扮演、逻辑推理、生成控制、文字游戏、创作能力、指令控制等9项基础能力的维度对开源语音模型进行全面测评。通过人工横评后的结果显示，Step-Audio的模型能力十分均衡，且在各个维度上均超过了此前市面上效果最佳的开源语音模型。

责任编辑：乔妙妙

开源中国维度