这篇文章详细记录了Linum团队历时四个月训练图像视频变分自编码器(VAE)的技术历程与核心发现。他们打破了行业内的普遍误区,指出VAE的重建质量越高,并不代表下游扩散模型的生成效果越好。过度追求像素级还原会导致模型过拟合于数据中的压缩噪点,从而破坏潜在空间的语义可学习性。文章深入剖析了联合训练中的信号失衡、“NaN Hell”训练崩溃及Group Norm导致的色块伪影等工程难题,并提出未来的优化方向应侧重于VAE的语义对齐(如REPA)或完全跳过潜在空间的端到端训练(如JIT),而非死磕重建损失。
原文链接:Hacker News

评论前必须登录!
立即登录 注册