腾讯混元团队发布了名为 WorldCompass 的新型强化学习(RL)后训练框架,旨在解决长视界视频世界模型中的连贯性难题。该技术引入群体相对策略优化(GRPO)理念,显著提升了自回归视频生成中的动作跟随能力和视觉质量。通过基于交互信号的强化学习,WorldCompass 能够生成更符合物理逻辑、长时序一致的视频内容。目前,相关代码、模型及详细技术报告已在 GitHub 和 HuggingFace 上开源。
原文链接:Linux.do
腾讯混元团队发布了名为 WorldCompass 的新型强化学习(RL)后训练框架,旨在解决长视界视频世界模型中的连贯性难题。该技术引入群体相对策略优化(GRPO)理念,显著提升了自回归视频生成中的动作跟随能力和视觉质量。通过基于交互信号的强化学习,WorldCompass 能够生成更符合物理逻辑、长时序一致的视频内容。目前,相关代码、模型及详细技术报告已在 GitHub 和 HuggingFace 上开源。
原文链接:Linux.do
评论前必须登录!
立即登录 注册