本次评测基于真实医学场景,对比了DeepSeek、Qwen及Gemini系列模型在1M长上下文下的表现。测试让各模型基于50篇文献摘要撰写综述,结果显示DeepSeek凭借新技术在生成质量和连贯性上表现最佳,有效提升了注意力机制;Qwen-Plus实现了文献100%覆盖率但内容稍显单薄;相比之下,Gemini 2.5 Pro中规中矩,而Gemini 3 Pro则在关键指标上表现最差。这标志着国产大模型在长文本处理和有效注意力范围上已具备强大竞争力。
原文链接:Linux.do
本次评测基于真实医学场景,对比了DeepSeek、Qwen及Gemini系列模型在1M长上下文下的表现。测试让各模型基于50篇文献摘要撰写综述,结果显示DeepSeek凭借新技术在生成质量和连贯性上表现最佳,有效提升了注意力机制;Qwen-Plus实现了文献100%覆盖率但内容稍显单薄;相比之下,Gemini 2.5 Pro中规中矩,而Gemini 3 Pro则在关键指标上表现最差。这标志着国产大模型在长文本处理和有效注意力范围上已具备强大竞争力。
原文链接:Linux.do
评论前必须登录!
立即登录 注册