2025年高考真题甩给GPT Claude Deepseek Qwen等Chatbot,能拿多少分?

AI工具导航站
同名“AI工具导航站”,跟上时代的脚步
5 人赞同了该回答
先说成绩,一些B站UP主和科技媒体的测试出o3和Gemini 2.5 Pro的得分是满分,国产AI模型的目前还没有看到获得满分的。
不过在测试这块闹了一个笑话。
一些公众号大V的测试结果和B站的测试结果就截然不同,o3得分最低,而豆包的得分反而最高。
这直接就引导了不少用户以为真的是o3不行,o3等海外AI工具没有国内的训练语料,导致成绩惨淡。
那为什么会这样的,一边是满分,一边是最低分。 后面发现公众号大V的测评方法不够严谨,而B站的则是严谨许多。
其中最突出的一点,就是没有将题目转换为LaTeX文本格式进行提问。
要知道,目前很多大模型的多模态能力,尤其是对复杂数学公式和图表的理解能力,确实还有待提升。
直接将图片格式的试题甩给它们,很可能因为识别问题而导致失分,这其实无法完全反映模型的真实解题能力。
其次,还有就是在测试中可能使用了“降智”的o3,没有在API中测试。
所以有点测评大家看看就得了,毕竟每次模型发布会的时候。各家模型的能力都摆在哪,谁强谁弱其实都知道。
为了更科学、更全面地评估AI在高考中的表现,我有一些小小的修改意见:
1.统一输入格式: 强烈建议将所有数学涉及公式和图表的题目,统一转换为LaTeX文本格式进行输入。
2.使用API进行测试: 尽可能使用模型的API接口进行测试,而非受限的在线版本。
3.引入多轮测试机制: 我们可以借鉴OpenAI在O1发布时采用的测试方法,进行两轮测试:
单次测试: 每道题只测试一次,记录成绩。
多次测试: 每道题测试4次,取最佳成绩。
总的来说,目前o3和Gemini 2.5 Pro是目前推理能力最强的模型,如果大家关注AI圈的话,其实谁强谁弱都知道的,其实非常建议大家去使用一下ChatGPT和Gemini 2.5 Pro。
特别是ChatGPT,可以说是全能高手一点都不为过,而且最近ChatGPT为了拉新,还推出了一美金开通ChatGPT team版会员的活动,而且还可以开通5个席位,相当于你1美刀开通5个Plus会员,可以让5个人同时使用。
只限未订阅过的用户,如果订阅过了,就得去开通一个新的帐号才能获取这个福利。
相关阅读:
国内用户如何花费1 美刀开通ChatGPT Team会员(手把手教学)
0 赞同 · 0 评论 文章

如果你想抛开这些测评,自己拿真题去横向比 Claude 和 GPT,国内可以用 Code80 调 Claude API 跑测试。它是真实 Claude 订阅帐号转 API,和官方接口一致,换个 endpoint 就能用,也支持国内支付,省去海外账号的麻烦。地址:code.ai80.vip

发布于 2025-06-10 18:36・广东
赞同 5​
2 条评论
5
喜欢
收起​

AD · 推广 前往 code80.ai › code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。

抢沙发

评论前必须登录!

立即登录   注册