商汤科技与南洋理工大学联合推出NEO-unify模型,该模型最大的创新在于摒弃了传统多模态架构中的Vision Encoder(如CLIP)和VAE组件。其采用Mixture-of-Transformer(MoT)架构,直接从原始像素出发,统一处理文本理解与图像生成任务。实验表明,在仅9万步预训练后,其图像重建质量已逼近Flux等主流模型的VAE水平,且具备良好的图像编辑能力。这一探索若能规模化,将摆脱现有模型对预训练编码器的依赖,构建出更纯粹、更高效的端到端多模态系统。
原文链接:V2EX 分享发现

IT资源栈
评论前必须登录!
立即登录 注册