阶跃星辰 Tech Fellow 段楠：Step-Video 系列模型的关键技术解读

此外，段楠博士还将系统总结现有视频生成模型面临的主要挑战，并与参会者共同探讨未来可能的发展方向，为开发者和研究者提供极具价值的参考和启发。视频生成作为其中的重要方向，在内容创作、娱乐、教育等领域拥有广阔的应用前景。段楠博士在多模态基础模型领域的深厚积累，以及其带领团队打造的 Step-Video 系列开源模型，无疑将为本次大会带来极具前瞻性和实践价值的分享。本次大会汇聚全球顶尖专家与一线技术领军者

CSDN资讯

1666人浏览 · 2025-03-18 16:49:55

CSDN资讯 · 2025-03-18 16:49:55 发布

由 CSDN&Boolan 联合举办的「2025 全球机器学习技术大会」将于 4 月 18-19 日在上海隆重举行，本次大会共设 12 大主题，云集院士、10 所高校科研工作者、近 30 家一线科技企业技术实战专家组成的超 50 位重磅嘉宾。他们将以独特的视角，解读智能体、联邦学习、多模态大模型、强化学习等前沿议题。无论你是科研学者、技术专家，还是行业从业者，都将在这里收获前沿洞见和实践经验，共同推动 AI 时代的技术变革与应用落地。

在 4 月 18 日下午，走在多模态研究前沿的阶跃星辰 Tech Fellow，多模态基础模型领域专家段楠博士将在「多模态大模型前沿」专场带来《视频生成基础模型进展、挑战和未来》的主题分享，分享其在视频生成基础模型方面的最新研究成果和前瞻性思考。
在这里插入图片描述

官网：https://ml-summit.org/

段楠博士拥有深厚的学术背景和丰富的产业经验。他长期深耕自然语言处理、代码智能、多模态基础模型和智能体等领域，是中国科学技术大学和西安交通大学兼职博导，天津大学兼职教授。在加入阶跃星辰之前，段楠博士曾在微软亚洲研究院担任资深首席研究员及自然语言计算团队研究经理长达十二年，对自然语言处理和多模态技术的发展做出了卓越贡献。

Step-Video-T2V & Step-Audio：开源多模态模型的巅峰之作

阶跃星辰推出了两款具有突破性的开源模型。Step-Video-T2V 是全球领先的视频生成模型，参数量高达 300 亿，可生成长达 8-10 秒的 540P 高质量视频，确保内容信息密度和时空一致性，支持文生视频、图生视频等多种任务，覆盖复杂运动和电影级镜头语言等 11 类内容生成需求，并原生支持中英双语输入。

此外，Step-Audio 是全球首个可直接应用于工业级的开源语音交互模型，支持多语种语音生成与理解，具有实时性和高保真音质，适用于智能客服和跨语言翻译等场景。Step-Video-T2V 在多项指标上超越现有开源模型，并已应用于自动驾驶和影视创作等领域，展现了强大的应用潜力。

根据技术报告的评测结果，Step-Video-T2V 的参数量和模型性能目前在全球开源视频生成领域都处于领先水平；而 Step-Audio 则是业内首款产品级的开源语音交互模型。

Step-Video-T2V：https://github.com/stepfun-ai/Step-Video-T2V
Step-Audio：https://github.com/stepfun-ai/Step-Audio

在 2025 全球机器学习技术大会上，段楠博士将围绕阶跃星辰开源的 Step-Video 系列模型，深入剖析当前视频生成基础模型的最新进展，涵盖文生视频和图生视频等关键任务。此外，段楠博士还将系统总结现有视频生成模型面临的主要挑战，并与参会者共同探讨未来可能的发展方向，为开发者和研究者提供极具价值的参考和启发。
在这里插入图片描述