近期在 LMSYS 竞技场中出现了代号为 GPT-4.5 和 4.8 的模型身影,引发开发者关注。一位资深用户通过盲测方式,将这两款新模型与包括哈基米 3f、gpt5.4 在内的竞争对手进行了对比。测试重点在于考察模型的“聊天自然性”及其对预设协议的处理能力。由于竞技场不支持直接设置系统提示词,测试者将一份设定为“相处三年背景”的伙伴协议放入输入框。结果显示,GPT-4.5 和 4.8 表现出色,它们能够正确识别该协议属于长期的背景语境,而非当下的新指令,因此避免了机械地回应协议内容,保持了对话的连贯性。相比之下,竞争对手未能有效区分上下文层级,表现出生硬的确认回复,破坏了角色的沉浸感。这一实测表明,最新一代的大模型在处理复杂的提示词工程和维持长语境一致性方面取得了显著进步。
事件分析
💡 核心观点:大模型的交互能力已进化至能精准识别“背景设定”与“即时对话”,这种高阶的上下文理解力将是下一代 AI 智能体区分于竞品的核心壁垒。
原文链接:Linux.do

评论前必须登录!
立即登录 注册