著名开源情报与影子图书馆网站 Anna’s Archive 近期发布了一项备受业界关注的公告,宣布设立高达 20 万美元的专项赏金,旨在解锁 Google Books(谷歌图书)的全量扫描数据库,或是获取由大型 AI 公司囤积的同等规模的书籍数据集。据公告描述,Google Books 虽然历经数年数字化扫描,收录了海量人类典籍,但长期以来,这些内容仅允许用户通过搜索框查看极其有限的文本片段,完整的数据被封锁在谷歌的服务器深处。对于渴望高质量训练数据的开源社区而言,这既是巨大的遗憾也是亟待攻克的堡垒。除了 Google Books,该赏金也适用于 OpenAI 或 Anthropic 等 AI 巨头内部的私有训练数据,特别是包含大量珍稀绝版书籍的语料库。该项目特别强调,拥有访问权限的谷歌内部员工若能提供协助,虽然 20 万美元的直接经济收益可能有限,但其在互联网信息自由共享历史上的地位将堪比传奇。这一事件不仅是一次单纯的数据获取尝试,更折射出 AI 时代对于全人类知识库开放访问的迫切需求。
事件分析
💡 核心观点:20 万美元悬赏折射出 AI 训练数据的极度匮乏与巨头垄断的矛盾,打破数据孤岛已成为开源模型进化的关键一战。
原文链接:Hacker News

评论前必须登录!
立即登录 注册