开源实时数字人 OpenTalking 新增视频克隆模式,支持面部动作幅度调节

GitHub 开源项目 OpenTalking 近日迎来重要更新,正式推出视频“克隆”模式。作为一种实时数字人解决方案,OpenTalking 此次升级允许用户利用视频素材直接驱动数字人形象,突破了传统仅靠音频驱动的限制。该功能的核心技术点在于能够精准捕捉并复刻源视频中的面部表情与头部动作,同时新增了面部动作幅度的调节参数。这意味着用户既可以追求高度拟真的表情还原,也可以通过参数调整创造出夸张、风格化甚至抽象化的视觉表现,极大地拓展了该工具在创意领域的玩法。项目团队强调保持免费和开源,致力于为开发者提供可自主部署的数字人技术,从而避免使用昂贵且数据隐私不可控的商业 SaaS 服务。目前项目代码已在 GitHub 平台公开,并附带了详细的 Bilibili 视频演示,展示了从静止模型到动态表情生成的全流程,适用于虚拟直播、实时交互等多种 AIGC 应用场景。

事件分析

数字人技术正从单一的静态图像驱动向高质量的实时视频驱动演进。OpenTalking 此次更新针对的是目前开源社区中缺乏高质量、可定制视频驱动数字人方案的痛点。相比于传统的 TTS 驱动,视频克隆模式能够保留更丰富的非语言信息(如微表情、点头节奏),显著增强了数字人的交互真实感。支持面部动作幅度的调整则赋予了开发者对“恐怖谷效应”的主动把控能力,使其既能用于严肃的虚拟会议场景,也能适应娱乐化的社交互动需求。此举进一步降低了 AIGC 创意的开发门槛,使得个人开发者无需依赖昂贵的云端 API 即可在本地运行高性能的数字人应用,符合当前 AI 领域模型轻量化与部署边缘化的技术趋势。

💡 核心观点:视频克隆能力的加入填补了开源数字人在高保真交互上的短板,有助于打破商业SaaS方案在虚拟代理领域的垄断。

原文链接:V2EX 分享发现

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。 了解一下 ›

抢沙发

评论前必须登录!

立即登录   注册