开发者吐槽 New API 视频接口设计混乱:参数冗余与多模态兼容性难题

近日,有开发者在技术社区 Linux.do 发帖,针对开源项目 New API 的视频生成接口设计提出了尖锐批评。该开发者尝试将名为“Happy Horse”的视频生成模型接入 New API 系统,但在阅读源码后发现,视频任务提交结构体 `TaskSubmitReq` 的设计存在严重的技术债务。具体问题包括参数语义的极度冗余,例如 `Duration`(整数)与 `Seconds`(字符串)字段功能重复,以及对参考图输入的处理极其混乱,`Image`、`Images` 和 `InputReference` 三套字段并存,缺乏统一标准。这种设计在面对现代视频生成任务中常见的多类型参考图输入(如人物、风格等多种条件控制)时,无法提供有效支持,导致模型能力受限。发帖人指出,相关功能的 Pull Request 被社区拒绝,导致开发者不得不自行维护接口。这一事件折射出当前 AI 应用层基础设施在快速迭代中面临的标准化缺失问题,复杂的参数定义不仅增加了 SDK 开发的适配难度,也成为了制约多模态大模型高效落地的绊脚石。

事件分析

该事件暴露了当前AI应用层基础设施建设中普遍存在的接口设计滞后问题。随着文生视频等多模态大模型的快速发展,现有的API标准(主要基于文本和图像生成)在面对复杂的视频生成需求时显得捉襟见肘。代码中暴露出的参数冗余(Duration与Seconds)和字段逻辑混乱(Image、Images、InputReference并存),反映了开发者在定义视频数据流时缺乏统一的数据建模规范。这种设计缺陷不仅增加了开发者的集成成本,也阻碍了模型能力的标准化输出。从长远来看,这可能会促使开源社区加速推动视频生成接口的标准化工作,类似于图像生成领域最终趋于统一的ControlNet或LoRA接入规范,以减少不同模型间的适配摩擦。

💡 核心观点:多模态大模型爆发期,API接口设计的碎片化与参数冗余已成为制约AI视频应用开发效率的关键技术债。

原文链接:Linux.do

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。 了解一下 ›

抢沙发

评论前必须登录!

立即登录   注册