一位开发者在 GitHub 上发布了一个开源英语词典项目,目前包含 26.5 万条词汇数据。该项目主要利用网上语料,并通过现代 AI 模型的 Structured Output(结构化输出)能力进行数据处理,确保了所有数据均为结构化格式。该词典不仅可作为英汉或英英词典导入支持 MDX 格式的应用中,还提供了数据库文件,方便开发者直接调用以构建自己的应用程序。虽然目前以单词为主,但已能满足 90% 的日常使用场景,体现了 AI 在数据清洗与结构化方面的实用价值。
原文链接:V2EX 分享发现
一位开发者在 GitHub 上发布了一个开源英语词典项目,目前包含 26.5 万条词汇数据。该项目主要利用网上语料,并通过现代 AI 模型的 Structured Output(结构化输出)能力进行数据处理,确保了所有数据均为结构化格式。该词典不仅可作为英汉或英英词典导入支持 MDX 格式的应用中,还提供了数据库文件,方便开发者直接调用以构建自己的应用程序。虽然目前以单词为主,但已能满足 90% 的日常使用场景,体现了 AI 在数据清洗与结构化方面的实用价值。
原文链接:V2EX 分享发现
评论前必须登录!
立即登录 注册