据社区技术讨论显示,DeepSeek即将发布的新模型在超长文本处理方面表现惊艳。在针对约74.2万Tokens的复杂文本“大海捞针”测试中,模型成功召回14个指令,整体召回率高达85%。尽管由于中间位置指令丢失,推算出的注意力有效上下文窗口约为32.5万Tokens,但这一成绩依然稳居行业第一梯队。虽然测试者强调该结果并非严谨的实验室数据,仅供参考,但这足以证明DeepSeek在超长上下文理解上的深厚技术底蕴与潜力。
原文链接:Linux.do
据社区技术讨论显示,DeepSeek即将发布的新模型在超长文本处理方面表现惊艳。在针对约74.2万Tokens的复杂文本“大海捞针”测试中,模型成功召回14个指令,整体召回率高达85%。尽管由于中间位置指令丢失,推算出的注意力有效上下文窗口约为32.5万Tokens,但这一成绩依然稳居行业第一梯队。虽然测试者强调该结果并非严谨的实验室数据,仅供参考,但这足以证明DeepSeek在超长上下文理解上的深厚技术底蕴与潜力。
原文链接:Linux.do
评论前必须登录!
立即登录 注册