研究人员利用全球命理师大赛的真题构建了 AI Benchmark,发现 DeepSeek、Gemini 等顶尖大模型在八字推理任务上准确率约 36%,显著高于随机猜测,但仍落后于人类专家。研究指出,八字推演涉及复杂的结构化逻辑,容易导致大模型出现“逻辑链断裂”。为此,团队提出了“结构化推理协议”(SRP),通过强制模型执行固定的分步分析,使流年运势等领域的准确率提升了 30%。该研究不仅开源了数据,也为解决大模型长链条推理难题提供了新思路。
原文链接:V2EX 分享发现
研究人员利用全球命理师大赛的真题构建了 AI Benchmark,发现 DeepSeek、Gemini 等顶尖大模型在八字推理任务上准确率约 36%,显著高于随机猜测,但仍落后于人类专家。研究指出,八字推演涉及复杂的结构化逻辑,容易导致大模型出现“逻辑链断裂”。为此,团队提出了“结构化推理协议”(SRP),通过强制模型执行固定的分步分析,使流年运势等领域的准确率提升了 30%。该研究不仅开源了数据,也为解决大模型长链条推理难题提供了新思路。
原文链接:V2EX 分享发现
评论前必须登录!
立即登录 注册