这不仅仅是一个存档,更是一个巨大的科技对话语料库。该数据集收录了自2006年以来,Hacker News(HN)社区所有的故事、评论、问答、招聘及投票数据。HN作为Y Combinator运营的互联网上历史最悠久、最具影响力的技术社区之一,汇聚了全球创始人、工程师和研究者的观点。该数据集目前包含超过4700万个数据项,体积达11.6GB,并采用了适合数据分析的Parquet格式,且保持着惊人的每5分钟实时更新频率。这为AI训练、舆情分析和科技趋势挖掘提供了宝贵的实时“活数据”。
原文链接:Hacker News

IT资源栈
评论前必须登录!
立即登录 注册