百度ERNIE-Image团队宣布开源两款文本生成图像模型——ERNIE-Image与ERNIE-Image-Turbo。该模型拥有80亿参数,基于单流扩散变换器与潜在扩散框架,并内置轻量级提示增强器,能将简短输入转化为高质量指令。ERNIE-Image在开源模型中实现了性能突破,其核心优势在于极高的可控性,特别擅长复杂的指令跟随、精确的文本渲染及结构化图像生成,有效弥补了现有开源模型在图文一致性上的短板。
原文链接:Linux.do
百度ERNIE-Image团队宣布开源两款文本生成图像模型——ERNIE-Image与ERNIE-Image-Turbo。该模型拥有80亿参数,基于单流扩散变换器与潜在扩散框架,并内置轻量级提示增强器,能将简短输入转化为高质量指令。ERNIE-Image在开源模型中实现了性能突破,其核心优势在于极高的可控性,特别擅长复杂的指令跟随、精确的文本渲染及结构化图像生成,有效弥补了现有开源模型在图文一致性上的短板。
原文链接:Linux.do
评论前必须登录!
立即登录 注册