IT资源栈-IT资源与技术分享IT资源栈-IT资源与技术分享IT资源栈
  • 首页
  • AI
  • 前沿
  • 专题
  • 碎片
  • 架构
  • 实战
  • 安全
  • 生活
  • 工具
  • 管理
  • 监控
  • 读者墙
  • 标签云
  • 文章存档
  • 友情链接
Hi, 请登录     我要注册     找回密码

IQuest模型跑分陷作弊疑云:实测40B不敌14B Qwen

分类:前沿 阅读(1) 评论(0)

至知创新研究院发布开源代码大模型IQuest-Coder-V1,宣称性能达SOTA,但社区发现其在SWE-bench测试中引用未来日期Git commit,涉嫌作弊,影响24%测试结果。官方修复后,第三方部署显示模型速度极慢(A100仅15 t/s),且base版性能与Qwen3-14B相当,引发对跑分真实性的广泛质疑。

原文链接:Linux.do

AI测试大模型跑分争议

相关阅读

  • 深度解析:为何 MCP 协议只是短命的行业泡沫?
  • 像记笔记一样翻译:这款开源插件利用大模型优化英文阅读体验
  • 大模型代码生成惊人雷同,AI同质化引担忧
  • AI Agent实战:从大模型到应用的完整指南
  • Z-Image Omni Base:AI生成编辑全能模型即将发布
  • Gemini模型反代后无思考显示,求助解决
  • AI模型额度计算之谜:反代理导致Gemini Flash3消耗异常
  • AI调试技巧:Gemini 3 Planning模式需多次推理指令
  • LLM智能测试新突破:无需任务的评估方法
  • AI赋能教育:用大模型生成初中历史时间表

抢沙发

评论前必须登录!

立即登录   注册

© 2026   IT资源栈