5月19日,知名数据新闻网站 FiveThirtyEight 创始人 Nate Silver 发文指责迪士尼公司“抹除”了该网站在被收购期间产生的十年数据内容。Silver 表示,当他试图查找2014年的旧文时,发现所有链接被自动重定向至 ABC 新闻主页,这意味着约20万小时的工作成果在未经通知的情况下被删除或无法访问。文章引用皮尤研究中心的研究指出,互联网存在严重的“链接腐烂”现象,近40%的十年前活跃链接现已失效,而这正是 AI 实验室用于训练大模型的 Common Crawl 数据集的重要组成部分。Silver 详细回顾了 FiveThirtyEight 被 ESPN 收购后的坎坷经历,指出迪士尼管理层从未真正致力于将其转化为盈利业务,甚至拒绝了建立付费墙以每年产生约500万美元营收的建议。最终,该品牌在 ABC 新闻手中经历了一系列误操作,包括模型故障和预算削减,直至彻底关停。目前,Silver 正通过其个人 Substack 重建相关选举与体育预测模型。
事件分析
此事件不仅是媒体行业的商业清算,更深刻揭示了数字资产长期保存与 AI 训练数据源稳定性之间的技术矛盾。文中提到的“链接腐烂”现象,直接威胁到了作为大模型训练基石的 Common Crawl 等公共网络档案的完整性。大型科技集团对非核心垂直业务的“服务器关闭”式处理,导致了高价值、长尾数据的永久性丢失,这对依赖开放网络数据进行训练的 AI 模型构成了系统性风险。此外,该案例也凸显了传统广告变现模式在面对高价值垂直内容时的局限性,推动了技术创作者向独立订阅模式(如 Substack)的迁移,这种模式虽然更利于数据主权,但也可能进一步加剧高质量数据的“围墙化”,使得未来的 AI 训练更难获取优质公域数据。
💡 核心观点:巨头对数字资产的粗暴清理不仅造成了历史数据的断代,更警示了公共互联网数据作为 AI 训练集的极度脆弱性。
原文链接:Hacker News

IT资源栈
评论前必须登录!
立即登录 注册