腾讯混元WorldCompass:引入强化学习,突破长视频生成的连贯性瓶颈

腾讯混元团队发布了名为 WorldCompass 的新型强化学习(RL)后训练框架,旨在解决长视界视频世界模型中的连贯性难题。该技术引入群体相对策略优化(GRPO)理念,显著提升了自回归视频生成中的动作跟随能力和视觉质量。通过基于交互信号的强化学习,WorldCompass 能够生成更符合物理逻辑、长时序一致的视频内容。目前,相关代码、模型及详细技术报告已在 GitHub 和 HuggingFace 上开源。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册