本文整理自 Zihao Zhang 对开源具身智能训练链路的完整演示。更值得看的,不是某个机器人 demo 又做成了什么动作,而是一个更关键的信号:今天个人开发者已经可以用两千多块的机械臂、开源 VLA 模型和现成训练框架,真正跑通一条具身智能实验闭环。原视频:https://www.youtube.com/watch?v=6779ZPrboKo
两千块就能入场
Figr AI 的人形机器人最近在直播间火了。三十多个小时,自主整理了几万件快递包裹,全程没人碰,所有包裹的标签统一朝下。叠毛巾、炒酸奶、双臂写字、收纳文具——这些场景以前只在论文 Demo 里见过,现在已经可以被普通开发者自己复现。
这期视频来自 Zihao Zhang,他完整跑通了蚂蚁灵波(LingBot)开源 VLA 大模型的后训练全流程:机械臂组装、遥操作采集数据、八卡 A100 微调、开环验证、真机推理。本体是一台 2000 多块的 SOARM-101 机械臂,推理算力从 Mac 电脑到 4090 主机到 Jetson Orin 都能跑。
看完最大的感受:具身智能现在处于 2023 年初大语言模型的位置——技术路线初步收敛,开源工具链成熟,个人开发者已经能动手了。
VLA 和世界模型:两条路线
具身智能分两条路线。
“小脑”管双腿的运动控制。宇树春晚节目里机器人做各种高难度动作、机器人马拉松打破人类半马记录,都属于小脑——平衡、步态、动态控制。
“大脑”管双臂的操作能力,抓取、放置、叠衣服、炒菜。大脑又分两个流派。
VLA(Vision-Language-Action)目前更成熟。输入文字指令加摄像头画面,模型实时输出每个关节下一步的位置。主流开源算法包括 ACT、SmallVLA、Pi 0、LingBot VLA,前面提到的那些“机器人干活”的 Demo 基本都是 VLA 实现的。
世界模型(World Model)今年出现了“世界行动模型”这个子方向,代表工作是蚂蚁灵波的 LingBot-AA 和英伟达的 Dreamer-Z。思路是让模型先学会预测物理世界的未来状态,再基于预测做决策。理论上更通用,但目前成熟度差一截。
蚂蚁灵波选择了双线押注。从落地节奏看,VLA 领先半个身位。
预训练和后训练
视频里用了一个很精准的类比。
预训练等于 K12 基础教育,教 AI 物理世界的常识:重力是什么,物体会怎么运动,碰到桌面会怎样。LingBot VLA 的基座模型用了 9 种机器人本体、2 万小时真机数据训练。数据越多、质量越高,基座就越稳。这和大语言模型的预训练逻辑是一样的。
后训练则更像职业技能培训。你不需要再教它“世界是什么”,而是教它“怎么把桌上的可乐罐放进盒子里”“怎么抓毛巾”“怎么把标签翻到同一个方向”。
这也是为什么这类开源具身智能项目对个人开发者突然变得现实:预训练这座大山,已经开始被大公司和开源社区替你扛掉了。你真正要投入的,是后训练和任务适配。
真正有价值的不是 demo,而是闭环
很多人看机器人视频,容易只盯着最后那几秒:它抓到了没有,炒成功没有,动作顺不顺。
但对开发者来说,真正有价值的是闭环有没有打通。
这期视频有意思的地方,不是单个结果有多惊艳,而是它把一条完整链路摊开给你看了:
- 机械臂怎么装
- 遥操作数据怎么采
- 训练环境怎么搭
- VLA 怎么微调
- 推理怎么上真机
- 失败动作怎么继续补数据
这意味着你不再只是围观“别人家的机器人”,而是第一次可以认真问一句:这件事我自己能不能做。
答案已经不是“理论上可以”,而是“成本和工具链都在往可以的方向掉”。
为什么我觉得这事像 2023 年初的大模型
因为它现在最像的,不是工业机器人时代,而是 ChatGPT 刚出来后那段时间。
当时最重要的变化不是某个模型分数超过了谁,而是普通开发者第一次意识到:原来很多以前只有大厂能做的事,自己也能摸到边了。随后才有了插件、Agent、工作流、RAG、代码生成这一整轮应用爆发。
具身智能也在往那个节点走。
以前你一听机器人训练,脑子里想到的是实验室、工业臂、昂贵平台、难以复现的硬件链路。现在开始变成:
- 有开源基座模型
- 有开源训练框架
- 有便宜机械臂
- 有消费级推理硬件
- 有公开视频教学
这几个条件一旦同时出现,事情的性质就变了。
它不再只是“研究前沿”,而开始变成“开发者可进入的实验场”。
具身智能接下来真正缺的,不再只是模型
看到这里,一个很明显的判断是:具身智能下一阶段的瓶颈,不一定首先是模型本身,而是数据、任务定义和工程闭环。
原因很简单。
模型越来越开源,框架越来越标准,硬件成本也在下降。真正难的是:
- 你要解决什么具体任务
- 这个任务怎么采高质量数据
- 失败样本怎么迭代回训练集
- 你的机器人本体和场景有没有足够一致性
- 推理延迟、控制精度、环境扰动怎么扛
这和今天做 Agent 其实很像。不是没有模型,而是缺可复用的工程化执行闭环。
所以我反而觉得,具身智能接下来最有机会冒出来的,不一定是下一个“最强模型”,而是那些真正把低成本硬件、数据采集、训练流程和任务验证串起来的人。
结语
这期视频给我的最大冲击,不是“机器人又会一个新动作了”,而是门槛真的下来了。
如果说过去的大语言模型浪潮,把软件世界的自动化门槛拉低了一大截;那今天这类开源 VLA 项目,正在把物理世界自动化的门槛也往下拉。
它还远没到成熟期,也远没到“人人做机器人创业”的阶段。但它已经到了一个很关键的点:个人开发者不再只能看 demo,而是可以自己下场做实验了。
这比任何单个炫酷动作都更重要。

IT资源栈
评论前必须登录!
立即登录 注册