科技论坛近期发起了一场针对大模型能力的极限测试,使用一道画质模糊且分跨两页的高中生物题挑战主流LLM。测试结果显示,GPT、豆包等拥有多模态能力的知名模型纷纷在OCR识别和逻辑推理环节“翻车”。这一现象深刻揭示了当前大模型在处理非标准、低质量及跨页图文信息时的软肋。尽管单一模型表现不佳,但业界观点认为,引入Agent架构进行工具调用和步骤拆解,有望有效解决此类复杂场景下的认知瓶颈。
原文链接:Linux.do
科技论坛近期发起了一场针对大模型能力的极限测试,使用一道画质模糊且分跨两页的高中生物题挑战主流LLM。测试结果显示,GPT、豆包等拥有多模态能力的知名模型纷纷在OCR识别和逻辑推理环节“翻车”。这一现象深刻揭示了当前大模型在处理非标准、低质量及跨页图文信息时的软肋。尽管单一模型表现不佳,但业界观点认为,引入Agent架构进行工具调用和步骤拆解,有望有效解决此类复杂场景下的认知瓶颈。
原文链接:Linux.do
评论前必须登录!
立即登录 注册