论文阅读笔记——Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware

Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware 论文阅读笔记

寻丶幽风

1200人浏览 · 2025-03-05 21:20:12

寻丶幽风 · 2025-03-05 21:20:12 发布

ALOHA 论文

ALOHA 解决了策略中的错误可能随时间累积，且人类演示可能是非平稳的，提出了 ACT（Action Chunking with Transformers）方法。

Action Chunking

模仿学习中，compounding error 是致使任务失败的主要原因。具体来说，当智能体（agent）在测试时遇到训练集中未见过的情况时，可能会产生预测误差。这些误差会逐步累积，导致智能体进入未知状态，最终任务失败。ALOHA 通过引入 Action Chunking 和 CVAE（Conditional Variational Autoencoder）来解决这一问题，显著减少了错误累积的影响。

在传统的模仿学习中，策略模型通常预测单步动作 $\pi_\theta(a_t|s_t)$ ，即根据当前状态 $s_t$ 预测下一个动作 $a_t$ 。然而，这种单步预测的方式容易导致误差累积，尤其是在长时间任务中。
在这里插入图片描述
为了减小 compounding error，引入了 Action Chunking，具体来说，模型不再预测单步动作，而是预测一个动作序列。
具体步骤如下：

Chunk Size 设置：将动作序列划分为大小为 kk 的块（chunk），每 kk 步，智能体获取一次输入，并预测接下来的 k 步动作。
轨迹长度缩减：轨迹长度被缩小到了 $\frac{1}{k}$ 。
策略模型发生变化：由预测单步 $\pi_\theta(a_t|s_t)$ 变为 $\pi_\theta(a_{t:t+k}|s_i)$ 。
为使轨迹更平滑，ALOHA 提出 temporal ensemble，对 k 个对同一动作的预测，采取加权的方式求和，权重 $w_i = exp^{-m*i}$ 。这种方法可以有效减少动作序列中的抖动，使动作更加平滑。