2025年高考真题甩给GPT Claude Deepseek Qwen等Chatbot，能拿多少分？-IT资源栈

AI工具导航站
同名“AI工具导航站”，跟上时代的脚步
5 人赞同了该回答
先说成绩，一些B站UP主和科技媒体的测试出o3和Gemini 2.5 Pro的得分是满分，国产AI模型的目前还没有看到获得满分的。
不过在测试这块闹了一个笑话。
一些公众号大V的测试结果和B站的测试结果就截然不同，o3得分最低，而豆包的得分反而最高。
这直接就引导了不少用户以为真的是o3不行，o3等海外AI工具没有国内的训练语料，导致成绩惨淡。
那为什么会这样的，一边是满分，一边是最低分。后面发现公众号大V的测评方法不够严谨，而B站的则是严谨许多。
其中最突出的一点，就是没有将题目转换为LaTeX文本格式进行提问。
要知道，目前很多大模型的多模态能力，尤其是对复杂数学公式和图表的理解能力，确实还有待提升。
直接将图片格式的试题甩给它们，很可能因为识别问题而导致失分，这其实无法完全反映模型的真实解题能力。
其次，还有就是在测试中可能使用了“降智”的o3，没有在API中测试。
所以有点测评大家看看就得了，毕竟每次模型发布会的时候。各家模型的能力都摆在哪，谁强谁弱其实都知道。
为了更科学、更全面地评估AI在高考中的表现，我有一些小小的修改意见：
1.统一输入格式：强烈建议将所有数学涉及公式和图表的题目，统一转换为LaTeX文本格式进行输入。
2.使用API进行测试：尽可能使用模型的API接口进行测试，而非受限的在线版本。
3.引入多轮测试机制：我们可以借鉴OpenAI在O1发布时采用的测试方法，进行两轮测试：
单次测试：每道题只测试一次，记录成绩。
多次测试：每道题测试4次，取最佳成绩。
总的来说，目前o3和Gemini 2.5 Pro是目前推理能力最强的模型，如果大家关注AI圈的话，其实谁强谁弱都知道的，其实非常建议大家去使用一下ChatGPT和Gemini 2.5 Pro。
特别是ChatGPT，可以说是全能高手一点都不为过，而且最近ChatGPT为了拉新，还推出了一美金开通ChatGPT team版会员的活动，而且还可以开通5个席位，相当于你1美刀开通5个Plus会员，可以让5个人同时使用。
只限未订阅过的用户，如果订阅过了，就得去开通一个新的帐号才能获取这个福利。
相关阅读：
国内用户如何花费1 美刀开通ChatGPT Team会员（手把手教学）
0 赞同 · 0 评论文章

如果你想抛开这些测评，自己拿真题去横向比 Claude 和 GPT，国内可以用 Code80 调 Claude API 跑测试。它是真实 Claude 订阅帐号转 API，和官方接口一致，换个 endpoint 就能用，也支持国内支付，省去海外账号的麻烦。地址：code.ai80.vip。

发布于 2025-06-10 18:36・广东
赞同 5
2 条评论
5
喜欢
收起

AD · 推广前往 code80.ai › code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。

2025年高考真题甩给GPT Claude Deepseek Qwen等Chatbot，能拿多少分？

相关阅读

抢沙发

评论前必须登录！