京东正式发布JoyAI-LLM-Flash中型指令模型,标志着其正式踏入大模型市场。该模型采用MoE架构,拥有480亿总参数,但每次推理仅激活30亿参数。模型使用Muon优化器,基于20万亿Token进行了预训练,并经过SFT、DPO及强化学习全面优化。在评测中,JoyAI-LLM-Flash在推理、编程及智能体能力上表现强劲,直接对标阿里Qwen和智谱GLM的Flash版本,旨在争夺轻量化与端侧部署的高效能市场。
原文链接:Linux.do
京东正式发布JoyAI-LLM-Flash中型指令模型,标志着其正式踏入大模型市场。该模型采用MoE架构,拥有480亿总参数,但每次推理仅激活30亿参数。模型使用Muon优化器,基于20万亿Token进行了预训练,并经过SFT、DPO及强化学习全面优化。在评测中,JoyAI-LLM-Flash在推理、编程及智能体能力上表现强劲,直接对标阿里Qwen和智谱GLM的Flash版本,旨在争夺轻量化与端侧部署的高效能市场。
原文链接:Linux.do
评论前必须登录!
立即登录 注册