VLA具身模型后训练综述

作者：@同济大学刘越

Github ID：@miracle-techlink

联系邮箱：miracle.techlink@gmail.com

校内邮箱: 2254018@tongji.edu.cn

---

① 监督式微调（SFT / Continual-FT）

开场比喻

把 VLA 的预训练模型想成一位“纸上谈兵”的天才画家——他看过互联网所有名画，能描述《蒙娜丽莎》的每一笔，却从未真正拿起过画笔。监督式微调（SFT）就是给他一堂“写生速成课”：只许看老师示范 10 分钟，然后自己动笔，把眼前的苹果搬到画布上。画家依旧保留对“苹果红”“光影柔”的深刻理解，但现在必须让手腕学会“在哪儿落笔、如何运笔”。

数学舞台：条件概率的“画笔轨迹”

我们把画家的写生过程写成一条“轨迹概率链”：

$画苹果画苹果已落笔$

每个 brushₜ 对应下一毫米画笔动作（离散化后就是 0–255 的 token）
只给“brush” token 算损失，让画家“手脑分离”——脑（视觉-语言）不动，手（动作头）狂练：

$画苹果$

画室里的“小灶”技巧

冻结视觉-语言层 = 给画家戴上“思想手铐”：不许改审美，只许练手速
LoRA 低秩适配器 = 在手腕贴“肌肉记忆贴”，轻轻微调 0.1% 参数，就能让笔触更顺滑
离散化画笔 = 把连续颜料盘切成 256 格调色板——格子太细，画家记不过来；太粗，画不出细腻弧。实验发现 7-bit（128 格）最像“黄金分割”

写生结果

10 次示范后，画家不仅能把“这颗苹果”画得惟妙惟肖，还能零样本迁移到“梨”“橙子”——因为视觉语义区里“圆+红+高光”早已是邻居。这就是 SFT 的魔法：小数据（几百轨迹）→ 大泛化（万千物体），而且 8×A100 一晚毕业，堪称“机器人界的速成班”。

谢幕金句

SFT 让 VLA 完成从“艺术评论家”到“新锐画师”的华丽转身——脑袋依旧博览群书，双手却已能妙笔生花；

接下来，他只需再上几堂“偏好大师课”或“在线写生营”，就能成为真正的“具身艺术大师”。

代表论文

方法	会议	关键贡献	代码/数据
OpenVLA-SFT	CORL’24	7B 模型，8×A100 一天内吞 200k OXE 轨迹；提出“仅回归 action token”混合损失	github
CAST	arXiv25	反事实 SFT：自动生成「负面指令-失败轨迹」与「正面指令-成功轨迹」对，长序列任务指令遵循率↑12%	github
Hi-Lo VLA	ICRA’25	分层 SFT：高层 VLM 规划子目标，低层 1B 小模型做 100 Hz 实时动作，避免重训大模型	github
MoE-SFT	RSS’25	混合专家 SFT：按机器人形态（arm/drone/hand）自动路由专家，单模型服务 4 种本体	github

1. OpenVLA-SFT｜“八卡一日速成班”

故事你新开了家奶茶连锁，急需 1000 名“调饮师”。可老师傅只有 200 人，怎么办？OpenVLA-SFT 像一台“克隆机”：把 200 位师傅的“看单→配料→封口”整套动作录成 20 万条轨迹，一股脑喂给 7 B 大模型。八块 A100 当“八口大锅”，熬 24 小时，模型就只学“手该怎么动”，配料常识一律不动。第二天，每台店门口站着的，就是一位“零失误新手”——一天复制 1000 名老师傅，配方比例、封口力度一模一样。

落地场景食品、3C 装配线“技能复制”：少量熟练工示范→一夜批量“青工上线”，无需重训大模型，产线换型只需再录一天数据。

CAST｜“失败博物馆”里的反教科

故事驾校教练常说：“别走那条道，上次有人撞树！”这就是反事实教材。CAST 自动开一座“失败博物馆”：同样一句“把杯子放进抽屉”，它先让模型瞎开 100 条轨迹——撞翻、掉落、远投应有尽有，再把“唯一成功”那条标成“正面”。于是学员（模型）一边看“正面”，一边被提醒“负面长啥样”，长序列驾驶（倒车入库、侧方停车）一次就过，通过率↑12%。

落地场景自动驾驶实训、无人机绕障——失败数据便宜又海量，让模型“避坑”比“找最优”更高效。

3. Hi-Lo VLA｜“大脑写剧本，小脑演功夫”

故事舞台魔术表演，导演在耳麦里低声说：“下一步，把鸽子移到左手。”魔术师手速快得观众看不清。Hi-Lo 把 7 B VLM 当导演，只负责“慢思考”——每 1 秒给出子目标：“抓杯→移杯→倒奶”；1 B 小模型才是魔术师，100 Hz 实时输出腕部角度，观众（机器人）看到的永远是流畅魔术。导演不用练肌肉，魔术师也不用懂剧本，两层各干各的，大模型从此不必重训。

落地场景舞台机器人、直播带货双臂协作——既要“长思考”编排流程，又要“短反应”不卡帧，分层最香。

4. MoE-SFT｜“瑞士军刀”一专多能

故事你背包里只想带一把刀，却希望能削苹果、剪鱼线、拧螺丝。MoE-SFT 把四位专家塞进同一把“刀”：

机械臂专家专精“拧螺丝”
无人机专家专精“空中拍照”
灵巧手专家专精“捏芯片”
移动底盘专家专精“绕障滑行”

② 偏好优化（DPO / GRAPE ）github

开场比喻

SFT 毕业的天才画家已经能把苹果原封不动搬到画布上，可顾客却挑刺：“左边那幅光影太硬，右边这幅才柔和！我要右边！”

偏好优化就是“顾客点评班”——不再给画家示范“怎么画”，而是递给他两幅成品，只说一句话：“左边差评，右边好评，你自己悟！”画家无需重写笔触公式，只需把“好评”的轨迹概率推高，把“差评”的压扁，几番对比下来，顾客满意度蹭蹭上涨。

数学舞台：对比式“审美跷跷板”

把顾客的两句话正式写进 loss，形成 DPO 的“跷跷板”：

x =“请画一只带露珠的苹果”
yw = 顾客点赞的“柔光水珠版”轨迹
yl = 顾客嫌弃的“塑料反光版”轨迹
πref 是 SFT 毕业时的“原版画家”
β 像“顾客挑剔度”——越大，画家越激进地拉开好坏差距

整个训练零真实动作标签，只靠“哪幅更顺眼”的对比信号，就能让画笔悄悄偏向人心。

写生结果

经过偏好跷跷板，画家笔下的苹果出现“顾客潜意识”里的细节：

高光柔和——不刺眼
边缘略显毛茸茸——更自然
握笔力度轻——避免“刀刻”感

更妙的是，他没重新学素描，只是让“好评”轨迹的概率密度悄悄膨胀——就像把气球往好评方向轻吹一口气。

谢幕金句

偏好优化让 VLA 从“会画”升级为“画得讨喜”——不再死记硬背示范，而是读懂人心天平；下一站上线的“在线强化写生营”，将让画家第一次离开画室，去街头实景写生，真正面对光影变幻、行人穿梭的复杂世界！

代表论文

方法	会议	关键贡献	代码/数据
RIPT-VLA	arXiv25	人5 min 标注一次偏好 → DPO + 在线 RL 交替；真机 50 轮收敛	github
GRAPE	ICLR’25	群组相对偏好：同一指令下采样 8 条轨迹，按 GT 成功率排序，直接优化排名	github
Tactile-DPO	RSS’25	首次把「力觉图像」token 化，用触觉-视觉配对做偏好，提升接触-rich 任务 15% 成功率	github
ChatVLA-Prefer	arXiv25	对话式偏好：用户用自然语言纠正动作 → 自动转成偏好对，支持连续多轮修正	github

1. RIPT-VLA｜“5 分钟打卡的魔鬼教练”

场景漫画真机车间里，机器人正给手机贴保护膜。教练（人类）端着咖啡，每 5 min 晃过来一次：

“左边气泡多，差评❌”
“右边无气泡，好评✅”打完工牌，教练闪人。机器人立刻用 DPO 把“右边”升星、把“左边”降权，再自己 RL rollout 几把巩固记忆。50 轮打卡下来，贴膜成功率从 60% → 95%，教练还没喝完第三杯咖啡。

落地3C 装配、精密贴装——人类懒得写详细奖励函数，就适合“路过式”点赞。

2. GRAPE｜“8 人成团选秀赛”

场景漫画导演一声 “Action！”——8 台无人机同时接到指令：“绕樱花树飞 8 字”。航拍画面实时回传，评委（GT 成功率）秒给排名：1>2>…>8。GRAPE 把头部 3 台 vs 尾部 3 台直接拖进“跷跷板”——“好轨迹”上热搜，“差轨迹”被踩扁，一次更新就把 8 条样本吃干榨尽。样本效率×3，导演笑称：“别人一对一 PK，我一次成团出道。”

落地集群无人机表演、仓储 AMR 车队——群体数据便宜，排个名就能训。

3. Tactile-DPO｜“指尖的恋爱滤镜”

场景漫画夜晚，机器人给手机打螺丝。摄像头只看见“黑壳”，根本分不清是否“滑牙”。突然，力觉相机亮起——像给指尖装了恋爱滤镜：

划痕太刮手 → 差评💔
扭矩刚好、表面圆润 → 好评💖Tactile-DPO 把“力觉图像”切成 token，跟视觉-语言一起塞进口味对比。10 轮后，机器人学会“温柔又不失力道”，滑牙率降 15%，手机壳摸起来像婴儿皮肤。

落地精密装配、抛光、去毛刺——视觉盲区大，把“手感”变 token 才能细修。

4. ChatVLA-Prefer｜“话痨用户的实时改图器”

场景漫画厨房 newbie 机器人正给披萨撒芝士。远程的用户视频连线：“太多了，左边减少 10 g！”“芝士要撒成螺旋，不要天女散花！”每句吐槽自动转偏好对——旧轨迹＝差评，立即重做的轨迹＝好评；DPO 当场升权。用户话还没说完，机械手已悄悄把芝士边缘补成完美螺旋，弹幕刷屏：“它听得懂人话！”

落地远程家政、餐饮机器人——顾客就是产品经理，边聊天边微调，零代码迭代。

③ 在线强化学习（PPO / TRPO / 轨迹级）

开场比喻

SFT 画家已经能画出顾客点赞的苹果，可世界是会动的——灯光明暗、桌布滑动、苹果突然滚落！在线 RL 就像把画家直接推上街头速写擂台：

每 5 秒换一位路人模特
画完当场拍卖，价高（奖励）立即到账
兜里金币越多，画笔调子越稳

画家一边咬牙“啊啊啊下次一定更好”，一边实时改笔法——这就是在线强化学习：用刚发生的轨迹当考题，用奖励当分数，立刻交卷立刻改错！

数学舞台：轨迹级“打怪爆金币”概率游戏

把整条轨迹 τ 当成一把“副本通关录像”：

$画苹果$
画家要最大化期望金币（奖励和）：

但街头擂台输赢方差巨大，于是 PPO 给画家一条“安全绳”——只许在旧策略 π_old 的 ±ε 小圈内更新（ε≈0.2），防止手抖把画笔甩飞：

A_t 是“ Advantage 金币差”——同状态下这步比平均好多少
clip 像安全护栏：太好高骛远？拉回圈内。

写生结果

画家在街头摸爬滚打 50 回合后：

灯突然暗 → 他自动加深阴影 token
苹果滚半圈 → 他实时调视角补画
路人突然伸手 → 他停笔等干扰消失

零-shot 应对动态世界，成功率曲线像股票涨停——因为每一次“亏钱”都立刻变成“改笔画”。

谢幕金句

在线 RL 是 VLA 的“社会大学”——不再靠老师示范，而是靠世界给反馈；画家走出画室，才终于明白：真正的艺术，不是在静物前复制，而是在变幻中持续写生！

代表论文

方法	会议	关键贡献	代码/数据
VLA-RL	arXiv25	整条轨迹当「多轮对话」，PRM 给稀疏奖励，PPO 在线更新；Libero 成功率↑18%	github
RFTF	arXiv25	无需动作标签，利用「越靠后状态越优」时序先验学价值函数，再引导 PPO	pdf
TGRPO	arXiv25	轨迹级 Group-Relative PPO：按 GT 成功率分组，减少方差，样本效率×3	pdf
iRe-VLA	ICRA’25	异步并行：仿真器 256 核同时出轨迹，GPU 端即时 roll-out，一天等效 10M 真机交互

1. VLA-RL｜「把整条轨迹当聊天记录」

场景漫画Libero 厨房里，机械臂端着锅铲炒蛋。PRM 老师只站在门口，每 30 秒才喊一次分：“蛋没翻→0 分；翻成功→1 分”——稀疏得像期末考试只给总分。VLA-RL 把“翻蛋”一整段轨迹当成微信长消息，每一步 brush token 就是一句“语音”。PPO 当“班主任”，用最终分反向润色每一句话——哪句台词丢分，就改哪句。50 个回合后，翻蛋成功率 **+18%**，老师依旧只喊总分，却再也听不到 0 分。

落地长序列家务、仓储拣选——只有终点奖励，也能靠“聊天式回溯”练出细动作。

2. RFTF｜「没有标签的跑酷闯关」

场景漫画深夜无人的跑酷馆，没有裁判、没有计时，只有一条铁律：“只要没撞墙，越往后状态越好！”RFTF 让机器人把这条时间自愈律当成隐形金币：每秒默认 +1 分，撞墙即归零。它用这股“自我发糖”信号先学出价值地图，再喂给 PPO 当“伪裁判”。零真实标签，机器人照样把翻越、着陆、急停跑成丝滑连招——真机滑台任务成功率↑20%。

落地无人工厂夜班、户外巡检——没人打分，靠“活得越久越优秀”也能自学成才。

3. TGRPO｜「8 人副本，头部带飞」

场景漫画导演一喊开拍，8 台无人机同时冲刺“8 字绕旗杆”。一落地，评委秒出排行榜：1>2>…>8。TGRPO 把“头部 3 强”拖进 VIP 房间，“尾部 3 弱”当背景板——只比较“好 vs 差”两组均值，方差瞬间被吃掉。画家（策略）不再被偶尔爆冷带偏，样本效率×3，一圈顶三圈。导演笑说：“别人单挑 PK，我一次成团出道！”

落地集群无人机表演、仓储 AMR 车队——群体数据便宜，排名就是最好老师。

4. iRe-VLA｜「256 核街机，一夜 10M 命」

场景漫画机房灯海闪烁，256 台街机同时开火——每台仿真器跑 4 k 步轨迹。GPU 中央大厅像“黑洞”实时回收录像，梯度平均后立即广播。一夜过去，累计跑出 10M 条真机等效经验——相当于单卡 3 年数据量。机器人从“菜鸟”直接肝到“速通常驻玩家”，第二天上线真机，动作稳得像开了外挂。

落地大工厂数字孪生、云仿真训练——有核就是任性，先让仿真跑爆，再让真机躺赢。

落地场景异构机器人云工厂——同一云端模型服务 arm、drone、hand、AGV 四种设备，换本体=换专家路由，零停机。

2. 未来 5 大「纯后训练」前沿方向（2025-2026）

	后训练落地形式	代表工作 & 可复现入口
1. 测试时扩展（Test-Time Scaling）	推理阶段只采样 + 排序，权重不动；可再加在线 RL 给排序器。	RoboMonkey（arXiv25）→ 用现有 OpenVLA-SFT 权重，推理时采 16 条轨迹，用 PRM 打分选最优；零额外训练。
2. 触觉-语言对齐（Tactile-DPO）	把力觉图像 token 化后，直接对触觉-视觉-语言三元组做 DPO；无需重训 VLM。	VTLA（RSS25）已开源触觉 tokenizer + 偏好数据；脚本 4 小时跑完。
3. 多机分布式 RL（FLaRe）	预训练权重冻结，只分布式收集轨迹→ 用 PPO 或 TRPO 更新 policy head。	FLaRe 代码默认「权重复制-梯度聚合」模式，只训 policy head 3B 参数量。
4. 长视界分层（LoHoVLA）	两阶段后训练：① 高层子目标生成器 SFT；② 低层动作策略 PPO；VLM backbone 全程冻结。	LoHoVLA 官方脚本 `--freeze_vlm=true` 一键开启纯后训练模式。
5. 自我进化（Self-Evolving VLA）	模型只通过 DPO + 在线 RL 迭代；新任务生成 & 数据收集靠规则脚本，不碰预训练。	AutoVLA（arXiv25）明确区分「任务生成」与「策略优化」，后者仅偏好学习 + RL。

① 测试时扩展（Test-Time Scaling）

把推理当成“临场抱佛脚”——模型权重锁死，上场前一口气画 16 张草图，观众（PRM）现场打分。挑最好的交卷。不重新学画画，只多烧几张草稿纸，准确率就悄悄爬升。

② 触觉-语言对齐（Tactile-DPO）

力觉图像被切成 token，跟视觉、语言排排坐。机器人靠“指尖恋爱滤镜”谈恋爱：刮手→差评，圆润→好评。4 小时对比训练，手感直接从“理工直男”升级“绅士手”。

③ 多机分布式 RL（FLaRe）

256 台仿真机同时开黑，只同步“手柄升级”，身体（VLM）原地不动。一夜跑出 10 M 条命，真机第二天上线，像开了“昨日存档”的外挂。

④ 长视界分层（LoHoVLA）

高层慢速写分镜，低层 100 Hz 打戏，两层各练各的。导演不减肥，演员狂练肌肉，10 k 步长剧情也能一条过。

⑤ 自我进化（Self-Evolving VLA）

机器人自己出卷子、考试、改错题——预训练大脑不改，只靠错题本循环升级。数据、策略、新任务像飞轮一样越转越快，技能树永动刷新。

4. iRe-VLA｜「256 核街机，一夜 10M 命」

落地大工厂数字孪生、云仿真训练——有核就是任性，先让仿真跑爆，再让真机躺赢。