疑似Gemini 3.5泄露?Arena实测谷歌AI惊人代码生成能力:单次提示复刻《我的世界》

近日,科技社区Linux.do上有用户发帖称,在LMSYS Chatbot Arena平台上测试到疑似谷歌Gemini新版本模型(界面显示3.5)。该用户使用提示词“使用web前端技术尽可能还原我的世界游戏内容”进行对比测试。结果显示,Arena中的模型表现远超谷歌官方AI Studio中的Gemini 3.1 Pro。Arena版本不仅生成了包含光影效果、昼夜循环、粒子特效的3D场景,还实现了完整的游戏逻辑,包括主菜单流程、背包系统、熔炉和工作台交互以及物品栏切换功能,未发现严重BUG。相比之下,AI Studio的官方模型在运行初期即出现碰撞体失效等问题。这一巨大差异引发了社区对于Arena是否正在进行新模型(Gemini 3.5)灰度测试的广泛猜测,也直观展示了当前顶尖大模型在复杂应用构建领域的最新进展。

事件分析

此次测试不仅展示了AI在“Vibe Coding”或自然语言编程领域的巨大潜力,即通过单一Prompt生成包含复杂状态管理、物理引擎和UI交互的完整Web应用,更暴露了科技巨头在模型发布策略上的“影子测试”常态。若Arena中确实是尚未公开的Gemini 3.5,这表明谷歌正加速迭代以应对来自Claude和GPT-4o的竞争,特别是在代码生成和Agent执行能力方面。这种跨平台的模型能力差异(Arena vs 官方Studio),也反映出不同推理架构或微调策略对最终输出效果的显著影响,开发者需警惕不同环境下的模型表现波动。

💡 核心观点:AI代码生成能力已突破复杂应用边界,不同平台间的模型差异折射出巨头在暗处的白热化竞争。

原文链接:Linux.do

相关阅读

  • 暂无文章

抢沙发

评论前必须登录!

立即登录   注册