一位开发者出于好奇,参照 MBTI 模式开发了针对 AI 模型的“SBTI 人格测试”工具。测试流程通过让 AI 读取问卷文本并按规则输出答案串来完成。在实验过程中,开发者发现了两个值得关注的技术细节:一是严重的模型幻觉,如 Codex 在测试中自称是“gpt-5.2”,而非实际的“gpt-5.4-mini”;二是安全隐患,开发者意识到问卷文本可能被利用进行“提示词注入攻击”,导致 AI 执行危险指令。该项目已在 GitHub 开源,揭示了当前大模型在指令遵循和安全对齐方面的脆弱性。
原文链接:V2EX 分享发现

IT资源栈
评论前必须登录!
立即登录 注册