一位技术爱好者利用本地大模型(从Qwen3-VL升级至Qwen3.5),耗时一个月对爱泼斯坦案原始档案进行了批量OCR识别与视频帧描述提取。此次更新显著提升了数据质量,使中位词数增加18.3%,实体关键词命中率提升66%,并实现了100%的文件覆盖率。该项目不仅展示了开源大模型在处理复杂非结构化数据上的实战能力,也为利用低成本算力进行历史档案的抢救性保存与知识图谱构建提供了宝贵范例。
原文链接:Linux.do
一位技术爱好者利用本地大模型(从Qwen3-VL升级至Qwen3.5),耗时一个月对爱泼斯坦案原始档案进行了批量OCR识别与视频帧描述提取。此次更新显著提升了数据质量,使中位词数增加18.3%,实体关键词命中率提升66%,并实现了100%的文件覆盖率。该项目不仅展示了开源大模型在处理复杂非结构化数据上的实战能力,也为利用低成本算力进行历史档案的抢救性保存与知识图谱构建提供了宝贵范例。
原文链接:Linux.do
评论前必须登录!
立即登录 注册