近期有科技爱好者通过一道涉及多种口味与形状组合的复杂逻辑题,对DeepSeek进行了极限测试。该题目要求计算在特定条件下,同时持有不同形状苹果味和桃子味糖果的最少取样数量,逻辑极具陷阱性。测试结果显示,相比昨日模型在“专家模式”下的错误回答,今日DeepSeek经过长达600秒(10分钟)的深度思考后,成功给出了正确答案。这一对比不仅验证了DeepSeek在复杂逻辑推理上的显著进步,也强烈暗示其可能已针对后台模型或推理链进行了静默优化。
原文链接:Linux.do
近期有科技爱好者通过一道涉及多种口味与形状组合的复杂逻辑题,对DeepSeek进行了极限测试。该题目要求计算在特定条件下,同时持有不同形状苹果味和桃子味糖果的最少取样数量,逻辑极具陷阱性。测试结果显示,相比昨日模型在“专家模式”下的错误回答,今日DeepSeek经过长达600秒(10分钟)的深度思考后,成功给出了正确答案。这一对比不仅验证了DeepSeek在复杂逻辑推理上的显著进步,也强烈暗示其可能已针对后台模型或推理链进行了静默优化。
原文链接:Linux.do
评论前必须登录!
立即登录 注册