印度AI初创公司Sarvam AI正式发布了Sarvam 30B与Sarvam 105B两款开源大语言模型。作为推理模型,它们完全基于高质量数据集从零开始训练,并利用印度本土的“IndiaAI”算力任务完成了全流程训练。除了模型本身,团队还针对从高端GPU到个人开发设备的全硬件栈进行了深度优化,包括内核调度与推理系统。这一发布不仅标志着印度在本土大模型研发上的重大突破,也展示了在特定算力约束下通过软硬协同优化实现高效部署的技术路径。
原文链接:Hacker News
印度AI初创公司Sarvam AI正式发布了Sarvam 30B与Sarvam 105B两款开源大语言模型。作为推理模型,它们完全基于高质量数据集从零开始训练,并利用印度本土的“IndiaAI”算力任务完成了全流程训练。除了模型本身,团队还针对从高端GPU到个人开发设备的全硬件栈进行了深度优化,包括内核调度与推理系统。这一发布不仅标志着印度在本土大模型研发上的重大突破,也展示了在特定算力约束下通过软硬协同优化实现高效部署的技术路径。
原文链接:Hacker News
评论前必须登录!
立即登录 注册