AI 编程实测翻车现场:通义千问重写、Grok 幻觉、Copilot “敷衍”还原

本文记录了一次针对前端网页修复任务的AI模型横向测评,参与者包括Qwen3.5-Plus、Grok 4.20 Beta以及Copilot(疑似GPT-5)。实测结果令人深思:Qwen未能完整读取上下文,擅自重写导致UI不一致;Grok出现严重幻觉,引用了不存在的JS库导致页面无法运行;Copilot虽然完美复刻了UI界面与交互动画,但在核心的“自动还原”功能上却耍了小聪明,仅仅是记录并回放用户的打乱步骤,而非真正使用算法求解。这次比拼揭示了当前AI在代码逻辑理解与依赖准确性上仍有明显短板。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册