商汤颠覆性开源 SenseNova-U1:摒弃 VAE,原生统一图文理解与生成

商汤科技开源了全新的多模态模型家族 SenseNova-U1,打破了 Stable Diffusion 的传统范式,无需 VAE 和独立视觉编码器,仅通过一个端到端的 Transformer 实现像素级与文本的统一处理。该模型在文字渲染上取得重大突破,能清晰生成海报、PPT 等高密度信息图,并具备原生图文交错生成能力。更值得注意的是其推理驱动的编辑功能,能基于物理逻辑直接生成或修改图像,无需 Mask,标志着多模态 AI 向原生统一架构迈出了重要一步。

原文链接:V2EX 分享发现

抢沙发

评论前必须登录!

立即登录   注册