黄金外汇配资 全球最大开源视频模型发布!上海AI企业打造开源大模型世界的中国新势力
今天上午,阶跃星辰联合吉利汽车集团黄金外汇配资,开源了两款多模态大模型——包含目前全球范围内参数量最大、性能最好的开源视频生成模型阶跃Step-Video-T2V,以及行业内首款产品级开源语音交互大模型阶跃Step-Audio。
和此前引爆全球科技界的DeepSeek R1一样,阶跃星辰的Step-Video-T2V视频生成模型,采用最为宽松的MIT许可协议,支持免费商用、任意修改和衍生开发,为开源社区带来了新的技术思路启发。这次发布也意味着阶跃星辰成为大模型开源世界的又一股中国力量。
性能领跑全球开源视频生成大模型
阶跃Step-Video-T2V 是目前全球范围内参数量最大、性能最好的开源视频生成大模型,参数量达到300亿,可以直接生成204帧、540P分辨率的高质量视频,这意味着能确保生成的视频内容具有极高的信息密度和强大的一致性。
从生成效果来看,阶跃Step-Video-T2V在复杂运动、美感人物、视觉想象力、基础文字生成、原生中英双语输入和镜头语言等方面具备强大的生成能力,且语义理解和指令遵循能力突出,能够高效助力视频创作者实现精准创意呈现。用户可以在跃问网页端和跃问App上体验阶跃Step-Video-T2V的视频生成能力 。
为了对开源视频生成模型的性能进行全面评测,阶跃星辰还发布并开源了针对文生视频质量评测的新基准数据集Step-Video-T2V-Eval。该测试集包含128条源于真实用户的中文评测问题,旨在评估生成视频在运动、风景、动物、组合概念、超现实、人物、3D动画、电影摄影等11个内容类别上的质量。

Step-Video-T2V-Eval评测结果
评测结果显示,阶跃Step-Video-T2V的模型性能在指令遵循、运动平滑性、物理合理性、美感度等方面的表现,均显著超过市面上既有的效果最佳的开源视频模型。
业内首款产品级开源语音交互模型
阶跃Step-Audio是行业内首个产品级的开源语音交互模型,能够根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达,能和用户自然地高质量对话。模型生成的语音具有超自然、高情商等特征,同时也能实现高质量的音色复刻并进行角色扮演,满足影视娱乐、社交、游戏等行业场景下应用需求。
在LlaMA Question、Web Questions等5大主流公开测试集中,阶跃Step-Audio模型性能均超过了行业内同类型开源模型,位列第一。阶跃Step-Audio 在HSK-6(汉语水平考试六级)评测中的表现尤为突出,是最懂中国话的开源语音交互大模型。

StepEval-Audio-360基准测试
此外,由于目前行业内语音对话测试集相对缺失,阶跃星辰自建并开源了多维度评估体系StepEval-Audio-360基准测试,从角色扮演、逻辑推理、生成控制、文字游戏、创作能力、指令控制等9项基础能力的维度对开源语音模型进行全面测评。通过人工横评后的结果显示,阶跃Step-Audio的模型能力十分均衡,且在各个维度上均超过了此前市面上效果最佳的开源语音模型。
在AI社区引发关注
新民晚报记者了解到,这也是阶跃星辰首次开源其Step系列基座模型。阶跃星辰创始人、CEO姜大昕博士表示:“阶跃星辰一直以实现AGI为目标坚持研发基座大模型。我们深知AGI的实现离不开全球开发者的共同努力,开源的初心,一方面是希望跟大家分享最新技术成果,为开源社区贡献一份力量;另一方面,我们相信多模态模型是实现AGI的必经之路,但目前尚处于早期阶段,期待与社区开发者集思广益,共同拓展模型技术边界,并推动产业落地。”
另据介绍,阶跃星辰是吉利汽车集团的科技生态战略合作伙伴。双方深度合作,在算力算法、场景训练等领域优势互补,显著增强了多模态大模型的性能表现。
阶跃星辰的大模型在AI社区引发了关注。抱抱脸官方也转发了中国区负责人给予的高度评价:“简直就是下一个DeepSeek”;GPT-J作者也贴出了用新模型生成的视频黄金外汇配资。更多网友对国内AI公司对开源社区的贡献表示了欢迎。
上一篇:股票加大杠杆 2025年2月14日上海农产品中心批发市场经营管理有限公司价格行情
下一篇:没有了