英伟达发布SANA-WM:单卡可运行的高效开源视频生成模型

英伟达NVLabs近日发布了名为SANA-WM的开源世界模型,该模型拥有26亿参数,专注于高效能的视频生成任务。其核心突破在于能够在消费级硬件上生成长达1分钟的720p高清视频,并支持显式的6自由度(6-DoF)相机控制,允许用户精确调整拍摄角度。技术上,SANA-WM采用了混合线性注意力机制和双分支相机控制管线,声称在生成速度上比同类开源模型快36倍。测试显示,在经过NVFP4量化后,该模型在RTX 5090显卡上仅需34秒即可渲染出一分钟的720p视频片段,且全过程仅需单张GPU即可完成,大幅降低了部署门槛。尽管社区反馈认为其视觉精细度目前仅相当于Stable Diffusion 1.5的水平,且在处理复杂交互时可能不及闭源竞品,但其开源特性和极致的能效比仍引起了广泛关注。目前该模型的权重及代码暂未完全开放,预计将在GitHub上正式发布。

事件分析

此次发布的SANA-WM标志着AI视频生成领域正从单纯追求参数规模向“极致能效”方向转变。通过引入线性注意力机制和特定的量化技术,该模型证明了利用较小的参数量(2.6B)即可实现分钟级长视频的高清生成,这将显著降低开发者和中小企业使用AI视频技术的硬件成本。其显式的6-DoF相机控制功能,解决了当前视频生成模型在镜头语言管理上的随机性问题,为AI在影视制作、3D资产生成等需要精确控制的专业场景应用提供了可能性。虽然目前模型在视觉美感上与顶尖闭源模型存在差距,但这种“轻量化、可本地部署”的开源路径,有望加速视频生成技术在边缘端和个人创作者中的普及。

💡 核心观点:AI视频生成正从“算力堆叠”转向“架构优化”,SANA-WM证明了轻量级模型配合高效算法才是降低应用门槛的关键。

原文链接:Hacker News

抢沙发

评论前必须登录!

立即登录   注册