当AI去考“命理师执照”:大模型在复杂逻辑推理上的盲区与突破

研究人员利用全球命理师大赛的真题构建了 AI Benchmark,发现 DeepSeek、Gemini 等顶尖大模型在八字推理任务上准确率约 36%,显著高于随机猜测,但仍落后于人类专家。研究指出,八字推演涉及复杂的结构化逻辑,容易导致大模型出现“逻辑链断裂”。为此,团队提出了“结构化推理协议”(SRP),通过强制模型执行固定的分步分析,使流年运势等领域的准确率提升了 30%。该研究不仅开源了数据,也为解决大模型长链条推理难题提供了新思路。

原文链接:V2EX 分享发现

抢沙发

评论前必须登录!

立即登录   注册