本文记录了一次针对 Rust 项目的 AI 代码审计实测。参赛者包括 Claude Opus、GPT-5.3-Codex、GLM-5 和 Minimax-2.5。测试发现,Claude Opus 在 Bug 覆盖率和代码深度挖掘上表现最佳,GPT-5.3-Codex 则以极高的准确性和零误报取胜。相比之下,国产模型 GLM-5 和 Minimax 虽然速度快,但在基础事实核查(如列数统计)上出现严重“幻觉”,提供的修复代码甚至包含语法错误。作者指出,在“Vibe Coding”场景下,Opus 负责全面找茬,Codex 负责精准修正,而国产模型在严肃审计中尚不可靠。
原文链接:Linux.do

IT资源栈
评论前必须登录!
立即登录 注册