深入浅出大模型基石:从 jieba 分词看文本表示的算法演进

本文源自 Datawhale 开源项目,系统梳理了自然语言处理(NLP)的底层逻辑——文本表示与分词技术。文章以经典的 jieba 库为例,深入浅出地讲解了基于词典构建有向无环图(DAG)及利用动态规划寻找最大概率路径的算法原理,并剖析了隐马尔可夫模型(HMM)在处理未登录词时的作用。随后,内容视角延伸至深度学习时代,对比了 BERT 的字粒度与 GPT 的子词(BPE)切分策略,为读者揭示了从传统 NLP 到大模型(LLM)技术变迁的关键脉络。

原文链接:Linux.do

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。 了解一下 ›

抢沙发

评论前必须登录!

立即登录   注册