字节跳动推出全新音视频生成模型Alive:实现视听同步生成,性能对标商业SOTA

字节跳动旗下的 FoundationVision 团队发布了一款名为“Alive”的统一音视频生成模型。该模型基于 MMDiT 架构,能够在单一框架内同时支持文本生成视频与音频(T2VA)以及参考图像生成动画。Alive 引入了 TA-CrossAttn 和 UniTemp-RoPE 技术,实现了工业级的高保真视听效果与精确的时间对齐。据官方介绍,该模型在处理百万级数据训练后,性能持续超越现有的开源模型,并达到或超过最先进的商业解决方案,目前已可在 GitHub 上查看相关内容。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册