VapourX

关于IGV记忆模块的一些近期工作与思考

Andreo Y. — Fri, 29 Aug 2025 00:00:00 GMT

定义与研究现状

在可交互视频生成（Interactive Video Generation，IGV）领域中，Memory模块负责确保生成内容在静态和动态方面的连贯性。具体来说，它包括两个部分：

静态记忆（Static Memory）：保留场景级和对象级的信息，例如游戏地形、建筑结构、角色资产和对象表
动态记忆（Dynamic Memory）：管理时间运动模式和行为序列，包括角色动画、车辆路径、粒子系统和动态环境元素（如天气变化）

现有工作主要依赖注意力机制中的交叉注意力来保持视频的前后一致性，但存在保持程度不佳和记忆时间不长的问题[1]。为此一些工作设计了新的记忆结构，使用高维潜空间或显式的三维空间表征（如GS，pointcloud），但这些模块还需要进一步适配完整的视频生成系统，训练这些记忆能力也需要更多优质数据集。

对记忆模块的讨论开始得较晚，在视频生成效果较好之后，才会考虑如何保持场景一致。早期工作直接依赖模型自身固有的记忆能力，未作深入探讨，此处不再赘述。以下为一些涉及记忆模块的代表性工作的发布时间：

利用模型自身交叉注意力
- Diffusion Models Are Real-Time Game Engines, 2024-08
- Oasis: A Universe in a Transformer, 2024-10
利用显示的3D建模作为记忆存储
- WonderWorld, 2024-06
- Gen3C, 2025-03
- Learning 3D Persistent Embodied World Models, 2025-05
- Video World Models with Long-term Spatial Memory, 2025-06
- VMem, 2025-06
- WonderFree, 2025-06
利用上下文的隐式记忆嵌入
- StreamingT2V: Consistent, Dynamic, and ExtendableLong Video Generation from Text, 2024-03
- SlowFast-VGen, 2024-10
- WORLDMEM: Long-term Consistent World Simulation with Memory, 2025-04
- Long-Context State-Space Video World Models, 2025-05
- Context as Memory, 2025-06
- M3-Agent, 2025-08

总的来讲，前沿的工作还是以滑动窗口为主，配合对长期记忆的存储、更新和抽取，而难点在于长上下文情景下如何高效地做长期记忆操作，如何对已有记忆进行筛选。对此，既有工作中有用到camera pose匹配(context as memory等）。采访中提到，Genie-3采用的是隐式策略。

本文将着重探讨采用显式（Explicit）与隐式（Implicit）方案的新一代记忆模块，均为一年以内的较新研究成果。

[1] A Survey of Interactive Generative Video

基于三维重建的显式方案

显式地表征三维场景，并在生成时用于参考，对较大物体的重建效果不错，且较容易落地；但是重建误差决定了该方案存在上限，例如VMem为了效率对细节丢失较多，深度估计也有固有误差，拓展难度高。

Video World Models with Long-term Spatial Memory

Paper

三种记忆的融合：

长期空间记忆，即静态点云（static point cloud），经过TSDF滤波
短期记忆，即最近几帧
长期事件记忆，选择具有代表性的帧存储为historical reference，选择方法即帧间差距较大时触发

使用CUT3R生成点云，CogVideoX作为基座视频生成模型，TSDF将新点云与现有点云融合更新。利用3D点云使视频前后一致的设计参考了ControlNet。

VMem

Paper

用Surfel（表面元素）作为更轻量的索引

方法：https://v-mem.github.io/img/video-1min-encoded_720p.mp4 很清晰的视频

Plücker是能表征图中任一点关于当时相机的位置的射线方程（包括相机起点），与拍到的内容无关

VMem在单图长程回访一致性、计算效率上占优；spatial memory在动态场景、动作一致性、文本-动作联合控制上更强，但依赖更重的点云融合管线，速度明显慢。

其他工作

Learning 3D Persistent Embodied World Models 用网格将整个空间分割，每次更新每块的内容，仅对小空间适用。用DINO-v2提取每帧的内容并用于更新，用深度图和camera pose计算图中内容的位置并更新对应区块
WonderFree: Enhancing Novel View Quality and Cross-View Consistency for 3D Scene Exploration 基于3DGS生成粗糙世界后用两个模块精细化，但仅用于生成世界，并非实时探索的视频生成。基于Wonderworld，该系列工作还有wonderturbo（提高实时性，生成仅需0.72s）。
GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control 用一个可实时更新的 3D 点云缓存当“外置记忆”，把已生成的场景几何和颜色都存进去。比较朴素的方法。

基于纯上下文的隐式方案

没有固有误差，理论上限更高，但十分依赖精心设计的结构和训练，且显著data-driven，要求大量高质的数据用于训练。

SLOWFAST-VGEN

Paper

核心创新为时间LoRA模块

慢速训练即常规的后训练，基于预训练的 ModelScopeT2V 模型，通过掩码条件视频扩散来生成视频。可将输入视频块和动作描述作为条件，生成后续的视频块。训练Unet：用三元组[输入，指令，加噪的输出]训练，学习去噪能力（找到那些噪声的$\mu,\sigma$）
快速训练的时间LoRA模块：在推理过程中训练，用当前视频片段和上一个片段和当中的指令训练，基于生成的视频和实际的差距训练小矩阵，叠加到慢速学习出来的矩阵中，继续下一步推理

Long-Context State-Space Video World Models

Paper

在时序维度引入Mamba，负责长程记忆的同时控制复杂度，加上最近几帧用来补充；训练时对前缀帧进行随机保留（不添加噪声的干净帧）

并没有用到具体的记忆模块，而是利用了Mamba的机制提高模型的长程记忆能力，只需维护常数内存，不会因为推理进行而内存爆炸；但是因为单帧计算量变大，所需时间长达200~400ms；推理长度不能超出训练长度，空间保真性也尚待提升。

Context-as-Memory

Paper

号称最接近Genie3的工作，核心是对相机位姿的存储和调用。

对每一次生成，进行如下操作：

遍历历史所有帧，计算与当前FOV的重叠度
去除时间冗余，连续多帧高重叠度的只保留一帧；对时空差距较大但重叠度仍较高的帧额外保留
筛选出一定数量的帧，与临近的几帧拼接后进行生成

M3-Agent

Paper

有多模态记忆系统的agent，不是一个直接用于视频生成的模型架构

有多模态的记忆，将一个实体的不同信息放在同一个槽中同维度存储，时序存储带有实体ID的记忆
检索时，基于时间范围和实体ID进行搜索
层级图，类似人类记忆的不同内容间的关系网络，在有新的事件/实体出现时立即更新
每一段时间进行记忆压缩，生成长期记忆，删除低置信度的关系线段

其他工作

StreamingT2V: Consistent, Dynamic, and ExtendableLong Video Generation from Text 持续用第一帧内容提醒模型；用了一个预训练的高分辨率短视频增强模型逐段增强
WORLDMEM: Long-term Consistent World Simulation with Memory 和Context-as-Memory的方案类似，但把所有的关键帧都存储下来作为一个显式的库，而后者采用的其实是实时更新的最重要帧集合，worldmem的一致性更强，但是时间长后必然存在CPU/存储瓶颈，且频繁检索导致的延迟不可忽视

Discussion

近期的工作大多在显式三维表征和隐式上下文建模之间徘徊。前者依赖点云、surfel 或体素等结构，能够提供明确的空间约束，但重建误差和更新效率始终是瓶颈；后者则完全交由模型内部机制维持一致性，避免显式误差，却需要更大规模的数据和更复杂的训练范式。值得注意的是，两类方法展现出一种逐渐融合的趋势，例如 context-as-memory 依靠相机位姿筛选历史帧，VMem 用轻量化的 surfel 作为索引。同时，研究者开始探索更接近人类认知的记忆机制，如层级抽象、语义压缩、多模态槽位存储，以缓解长时序生成中的存储和检索压力。

就目前的研究而言，Memory Module仍然是各个IGV System的痛点，Long-context Consistency还没有很完整的解决方案，尤其是能够结合动态、交互的记忆模块还很欠缺。到底是在效率、准确性和泛化能力之间找到合适的折中点，用算力或数据集弥补剩余空缺，还是能开创出全新的记忆模式？

Discrete Diffusion VLA: 离散扩散动作解码新方案

Zhixuan Liang — Thu, 28 Aug 2025 00:00:00 GMT

TL;DR

我们将离散扩散（discrete diffusion，也即LLADA使用的diffusion方法）做成VLA内部的动作解码头使得VLA保持单一Transformer结构。配合两项机制，自适应解码顺序与二次重掩码，实现更稳定的一致性细化，在多种设置下均优于自回归与连续扩散解码。我们的训练目标与 VLM 保持一致，最大限度保留VLM的预训练先验，并在成功率上取得更好结果。

What's new

首次将离散扩散引入 VLA 的动作解码头。
单一 Transformer、VLM 式训练：保持离散 token 接口，并使用与主干一致的 CE 损失 → 最大化保留 VLM 的预训练先验。
自适应解码顺序：每一轮基于置信度/置信度差优先保留"容易"的 token，并用余弦策略下调保留比例；其余位置继续保持为 [MASK] 进入下一轮细化。
二次重掩码：对已保留的位置做阈值 + 残差下降检查；若存在不确定/不一致则回掩码，实现稳健的跨轮次纠错。

Why it matters

与连续扩散解码不同，我们把动作生成完全保留在统一的 Transformer 内部，并沿用 VLM 的交叉熵训练目标。这既能最大程度承接 VLM 的视觉—语言先验（可类比为给模型"扩展词汇表"），也为继承统一 Transformer 的规模化规律提供路径，推动大规模 VLA 研究。
同时，Discrete Diffusion VLA 打破了自回归左到右的瓶颈：在少量、固定步数内并行自适应地产生动作片段；对置信度不足的 token 可通过迭代重掩码反复校正，保持了diffusion的逐次修正特性，充分利用跨模态上下文（包括动作token间依赖）进行持续细化。

Links

Paper：https://arxiv.org/abs/2508.20072

Hugging Face（& Demos）：https://huggingface.co/papers/2508.20072

世界模型的本质

Qi Wang — Wed, 13 Aug 2025 00:00:00 GMT

最近 Genie3 很火，但大家对世界模型的概念还有些模糊，有人认为生成模型就是世界模型，但让我们回顾最早的世界模型定义，也就是 Genie1 论文“Genie: Generative Interactive Environments”中提到的定义：”生成式交互环境可以被视为世界模型的一类，它们能够在给定动作输入的条件下，实现下一帧的预测“，由此可知，生成模型≠世界模型。接下来给大家介绍下做强化学习的人眼中的世界模型。

为什么是世界模型？

使用世界模型可以替代环境训练，我们可以完全在模拟的“梦境”环境中训练智能体，而不需要与真实环境交互。这种方法提供了诸多好处。例如，运行计算密集型的游戏引擎需要使用大量的计算资源来将游戏状态渲染成图像帧，或者计算与游戏不直接相关的物理内容。我们可能不想在实际环境中浪费计算资源来训练智能体，而是可以在其模拟环境中多次训练智能体。现实世界中训练智能体的成本更高，因此逐步训练的世界模型用于模拟现实可能有助于将策略转移到现实世界中。

世界模型是什么？

最早的世界模型概念来自 David Ha 和 LSTM 之父 Jürgen Schmidhuber 的 NIPS 2018 Oral Presentation 的论文 “World Models”。这篇论文给出的世界模型由以下3个部分组成：

V 模型（Variational Autoencoder，VAE） ：这是智能体（agent）的视觉感知部分，用于将高维的图像帧（如来自游戏环境的2D图像）压缩成低维的 latent 表示。这个模型对于智能体从原始输入数据中学习有意义的、抽象的表示至关重要。

M 模型（MDN-RNN） 的作用是预测未来，具体来说，M 模型根据当前时刻 $t$ 的隐向量（latent vector） $$z_t$$ 、隐状态（hidden state） $h_t$ 以及动作$a_t$来预测下一时刻的隐向量 $$z_{t+1}$$ 。它使用**混合密度网络（Mixture Density Network，MDN）与循环神经网络（Recurrent Neural Network，RNN）**结合的方式，输出下一个隐向量 $$z$$ 的概率分布。温度参数 $$\tau$$ 用来控制模型的不确定性。

$$ P\left(z_{t+1} \mid a_t, z_t, h_t\right) $$

**C 模型（Controller，控制器）**使用来自V模型和M模型的表示来选择合适的动作。控制器的目的是最大化期望的累积奖励。C是一个简单的单层线性模型，它将$$z_t$$和$$h_t$$直接映射到每个时间步的行动$$a _t$$，$$ \left[z_t h_t\right] $$是把 $$z_t$$和$$h_t$$拼接在一起

$$ a_t=W_c\left[z_t h_t\right]+b_c $$

把 V、M、C 模型放一起，整体运作的流程是：在每个时间步$$t$$，原始观测输入到V，输出 $$z_t $$。输入到C的是隐向量$$z_t $$与M的隐状态$$h_t $$的拼接。接着，C会输出一个动作向量$$a_t $$用于运动控制，并且会影响环境。接着，M将当前的$$z_t $$和动作$$a_t $$作为输入，更新自身的隐状态，生成$$h_{t+1} $$。值得注意的是，论文中是通过随机策略跟环境进行交互收集到的预演（rollouts）来训练世界模型。

按时间步展开来，世界模型的结构如下图所示。

原论文给出了对应的世界模型 demo：https://worldmodels.github.io/，大家可以试玩下。也欢迎大家看我主页上世界模型相关的 paper（https://qiwang067.github.io/），最后宣传下我们 NeurIPS 组织的 Workshop “Embodied World Models for Decision Making”（https://embodied-world-models.github.io/）”，Genie 3 的核心贡献者 Philip Ball 也会给 Talk，欢迎大家参加、投稿~，希望本文能对大家理解世界模型有所帮助。

AC Daily Blog Eps.16 我们正在谈论的世界模型Pt.1

ACondaway — Sat, 09 Aug 2025 00:00:00 GMT

什么是世界模型？

从博主的视角，所谓世界模型，就是一种对于现有的感知的信息提炼和处理，经过强有力的对于物理世界和客观规律的先验的映射而得到非常准确的对于感知的反馈。从认知科学的角度，"具身认知"这种观念是十分重要的，1991年，Brooks提出了"无表征智能"，倡导使用行为来驱动机器人的架构。

这个过程更像是人类的大脑在做的事情，通过去处理各个器官的感知信息来做出合适的反馈。那么在这里就会有很多下分的方向，这些都代表了不同意义的世界模型的构建。

世界模型最早由Ha和Schmidhuber提出，证明了可以通过学习生成式环境模型来让agent在其内部的Dream中训练和迁移。

以Genie为代表的谷歌发起的世界模型主要是通过有条件视频生成的技术路线实现了对于物理世界未来预测的反馈，这种范式也得到了很多研究者的认可，通过生成一些全新的场景，并且在这些场景中进行交互得到这个场景的动态反馈，那么就相当于在pixel-based的环境中当中创建了一个现实世界的映射。当然包括对于物体的性质的预测也好或者对于一些环境中的物体的反馈或者整个环境的变化的预测也好，归根结底，都在做预测，这一类统称为基于预测的世界模型。另外有基于风格迁移的世界模型，通过特定输入引导输出结果，风格化、结构化地调节模型的生成，这对于环境重建和数字孪生有很大的作用。最后还有推理模型，这个过程当中，通过比如思维链等方式就可以推理出一些有用的信息和有用的行为。这对于具身操作和自动驾驶等研究方向都有重要的指导意义。

从Genie说起

Video Prediction Model as World Model，在Genie之前其实有很多工作都已经对World Model的构建进行了尝试，比如在强化学习的范畴里面，通过一个world model来训练agent得到更好的策略，在这个过程当中WM成为了Agent理解世界的大脑。包括GAIA-1和UniSim这一类使用World Model来作用于自动驾驶和具身操作的工作，也为现在的学术界打下了一定的基础。这些方法无一例外都是用了video prediction的思路，很多都参考了自回归模型的结构。

在2024年，Google DeepMind发布了Genie，提出了一种生成式交互环境模型框架，通过对模型输入可控的action，可以得到无限的生成式虚拟场景。整体上来说，它是由时空视频tokenizer和动态自回归模型以及一个简单的可扩展的latent action model构成。整体模型的训练过程是使用自监督的方式，这也大大提升了模型的foundation能力，这为后续很多其他领域的发展都提供了很好的平台。

整体来说Genie是基于视频生成模型进行构建的，对于视频生成模型而言，核心观念是引入Spatio-temperal Transformer，Genie通过自己训练的video tokenizer来提取潜在的动作信息，Genie使用的训练数据集主要是互联网中的2D游戏视频，因此自然产生了一些二维层面上的可交互表征，另外团队还训了一个基于RT1数据集的模型来验证泛化性。

模型框架

整体模型使用内存友好的ST-Transformer进行构建，其中包含若干层时空交织attention层，其中空间层的自注意力机制对每一个时间步获取分别的 $1 \times H \times W$ spatial token，在时序层中则使用 $T \times 1 \times 1$ temporal token进行注意力计算。

在temporal层中会和sequence transformer一样使用causal mask来进行因果推理。通过上述方式，随着frame数量的增加，是线性计算量增加的，相比四次方增加会好很多。

模型主要有三个子模块，（1）latent action model；（2）video tokenizer；（3）dynamics model

LAM

对于未来的视频帧的生成，会通过对过去的行为进行条件生成，这样可以确保一定的生成可控性，通过学习latent action的主要原因是因为这个过程是完全无监督的，确保了大量的无标注互联网数据可以进行训练。

LAM需要对过去的视频帧和下一帧进行输入，输出对应的连续的latent action，这是encoder过程。Decoder过程则是把过去的帧和latent action输入来预测到下一帧，在这样的训练当中，我们会发现encoder是有前瞻性的，而decoder则是纯粹从有前瞻性的提示中去学习这种预测能力，所以还是很合理的。其中latent action需要编码最有意义的帧间变化，这样才能让decoder学到有意义的信息和预测能力。其中模型架构使用ST-Transformer架构，并且对temporal layer进行causal mask。

Genie使用VQ-VAE作为训练目标将action控制在有限的离散集合中，并且进行了VQ codebook的size的限制。

在最后使用时，只需要把decoder丢弃即可，因为核心是编码出最有意义的latent action，decoder只做训练的验证。这是经典的VAE训练思路。

Video Tokenizer

为了压缩信息，我们需要将视频变为离散的token，这个部分依然使用VQ-VAE来进行token提取，将一段时序的视频映射成等长的隐式编码，并且在这个过程中，依然使用ST-transformer来对enc-dec赋予时序理解的能力，并且也提升了token生成高质量视频的能力。

Dynamic Model

使用decoder-only的MaskGIT transformer来对每一个时间步进行先前的video token的输入，停止latent action token的训练同步输入，得到当前帧的video token的预测

$$(\tilde{\boldsymbol{a}}{1:t-1},\boldsymbol{z}{1:t-1}) \rightarrow \hat{z}_t$$

使用ST-Transformer之后就可以通过T-1帧内容进行所有的next-frame prediction，因此随后可以使用交叉熵损失进行训练，在训练过程当中会对input token进行Mask，这思路类似于MAE

推理

在Genie的推理过程中，User通过对模型进行image prompt的方式作为整个过程的初始化环节，随后image会被处理成token，随后User指定action，同步将token和action输入到Dynamic Model当中，最后会输出有连续时序的token预测，将这个token通过token decoder生成对应的预测图像/序列，这个过程会反复迭代，但根据这个架构，很显然，随着时间的增加，模型需要处理的token数量会线性增长，会影响到推理的效率。

再到Genie-2

基于Genie-1，Genie-2能够产生更加丰富多样的3D可交互世界，这相比于Genie-1生成的二维世界是一个巨大的突破。Genie-2在训练的过程中，使用大规模视频数据集和其他生成式模型生成的结果作为训练集，让模型学习到了物体交互和复杂的角色动画以及物理性质，并且能够建模和预测其他agent的行为，这对multi-agent的发展也有很大的帮助。

模型首先使用一个图像进行prompt，使用Imagen 3作为backbone，当然也可以使用文字来描述这个世界通过T2I的方式构建这个世界。

对于Action Control，玩家可以使用键盘和鼠标控制agent在图片中的运动，模型通过predict next observation的方式，就可以得到下一帧的画面。

另外模型还可以通过和使用者交互来产生大量从起始帧出发的不同的轨迹，这些轨迹可以用以模拟反事实的经验，这对于agent的增广训练有很大帮助。

并且Genie-2支持了长时间的记忆能力，它能够确保之前生成的东西在之后依然做到可观测，包括支持了长段的视频生成能力。

模型架构

Genie-2采用自回归的LDM，视频帧通过一个自动编码器得到隐式表达，进一步的，通过transformer dynamics model。在使用Diffusion Model的过程中采用Classifier-free guidance来提升action的可控性，随后为了让模型能够满足实时性的要求，会对diffusion model进行蒸馏。

现在，Genie-3

在前几天Genie-3发布，引发了一场非常巨大的讨论，至少现在GDM展示的demo已经足够令人惊艳，它能够达到几乎24fps的速度，这已经可以称得上是实时世界交互生成了，并且能够对几分钟内的生成结果维持一致性。总的来说，Genie-3是第一个实现实时交互并且维持一致性的世界模型。

通过更加优质的数据，它能够建模很多的复杂的自然现象（比如水流和光线等等），另外它可以产生动态的生态场景。同时对于agent的运动和摩擦的建模也能够进行相应的支持。

其中最令博主觉得惊艳的是那个室内刷墙的例子，这个例子充分展现了agent与virtual 3D world的交互能力，以及场景的真实性和时间空间的一致性。这种一致性是大模型涌现出来的能力，这相比于之前的3D场景重建的模型，之前提到的NeRF和3D GS来说，都能够有更强大的泛化能力和对于动态丰富细节场景的建模。

另外，Genie-3支持在视频过程中进行prompting来产生同一个起点帧不同的信息，这对于Embodied Agent的训练，提供了良好的数据。

NVIDIA Cosmos

NVIDIA在今年提出Cosmos World Foundation Model，旨在和NVIDIA显卡本身进行适配提出了高性能的世界基础模型框架，通过这个基础模型和一些少量的专有数据，就可以通过后训练的到特定领域的强有力的模型。

在NVIDIA的定义中，World Model被定义为给定历史观测和现有的扰动，产生下一帧的观测的预测，这依然是基于条件的预测模型的框架。

首先训练了一个Cosmos Tokenizer对视频进行token编码，随后通过Denoiser的架构进行解码生成

对于NVIDIA，他们联合1X Technology的本体Neo Gamma，进行了大量的人形机器人的视角的数据采集，这让Cosmos能够在全尺寸人形机器人的智能化中提供很大的帮助。

Know about VapourX

"人机合一，协同进化，化具象为抽象，寓抽象于具象。"

参考文献

[1] Genie: Generative Interactive Environments

[2] GAIA-1: A Generative World Model for Autonomous Driving

[3] Learning interactive real-world simulators

[4] Genie 2: A large-scale foundation world model

[5] Genie 3: A new frontier for world models

[6] Intelligence without representation

[7] Cosmos World Foundation Model Platform for Physical AI

AC Daily Blog Eps.15 从GR-1到GR-3

ACondaway — Fri, 01 Aug 2025 00:00:00 GMT

GR-1

Overview

这篇文章将NLP和CV中常用的生成式预训练模型的思路迁移到了具身的操作当中，意在解决多任务视觉-语言条件下的机器人操作，其中GR-1首次在视频预测任务上进行预训练，通过模型Video Generative的能力的预训练，让模型能够预测未来帧和未来事件。

在当时，GR-1的横空出世可以说刷爆了CALVIN benchmark的榜单，从这个角度上来说，通过统一的GPT风格的transformer和基于大规模视频预训练的模型，大大提升了具身操作的性能。

Method

视频生成预训练

在这个过程中，需要让模型能够在给定语言描述和历史观测帧来预测后向的视频帧。

$$ \pi(l, \boldsymbol{o}{t-h:t}) \rightarrow \boldsymbol{o}{t + \Delta t} $$

对于训练的数据结构，是一段文本，对应一整个视频序列

$$ v = {l, \boldsymbol{o}_1, \boldsymbol{o}_2, \boldsymbol{o}_3, ..., \boldsymbol{o}_T} $$

多任务视觉操作模型

将语言描述、历史观测和历史状态作为模型的输入，得到后向的视频的预测和action的输出，这个时候作者将整个数据集定义成专家轨迹的形式以o-s-a的形式进行组织。

$$ \pi(l, \boldsymbol{o}{t-h:t}, \boldsymbol{s}{t-h:t}) \rightarrow \boldsymbol{o}_{t + \Delta t} + \boldsymbol{a}_t $$

$$ {\tau}_{j = 1}^{M} = {l, \boldsymbol{o}_i, \boldsymbol{s}_i, \boldsymbol{a}i}{i = 1}^T $$

对于不同的任务都收集了对应数量的专家轨迹。

模型框架

模型整体选用了GPT风格的Transformer，这种架构已然证明了他们的上下文推理能力和多模态能力。

模型选择任务描述和视觉输入以及本体状态作为输入，最终输出动作。

对于语言输入，模型采用预训练的CLIP风格的文本编码器；对于视觉输入使用MAE预训练的ViT进行编码最后输出[CLS] token作为整体表征，对应输出的patch token，会通过Resampler来产生最终的输入GR-1的Token；对于本体状态的输入，使用线性层进行编码得到对应的表征，具体来说，输入了末端执行器的6Dpose和夹爪的二元信息。

在输入到GR-1之前，所有模态的信息通过一个线性层进行维度上的对齐，确保整体的稳定性。为了动作的预测，文中额外增加了[ACT] token，对于视觉信息的预测，文中额外增加了[OBS] token。

在预训练阶段，得到的token被表示为

$$ (l, \boldsymbol{o}_{t-h}, [OBS], ..., l, \boldsymbol{o}_t, [OBS]) $$

使用机器人数据进行finetune时，得到的token被表示为

$$ (l, \boldsymbol{s}{t-h}, \boldsymbol{o}{t-h}, [OBS], [ACT], ..., l, \boldsymbol{s}_t, \boldsymbol{o}_t, [OBS], [ACT]) $$

为了权衡模态之间的信息权重，语言模态在时间戳上重复使用，为了增强时序性，在每一个时间戳都提供了相应的时间戳embedding。

网络遵循causal attention机制，在预训练的过程中除了[OBS]token，其他token能够获取到其之前所有的token的信息，在微调阶段，除了[ACT]和[OBS] token，其他token只能获取在其之前所有的token的信息。

最后输出阶段，使用由自注意力机制和MLP组成的transformer decoder，decoder主要处理[OBS]对应的输出以及mask tokens，mask token对应的输出会用来重建预测的未来图像的patch。对于[ACT] token对应的输出，则会通过线性层映射得到预测的动作。对于图像使用MSE loss监督；对于末端6D pose使用Smooth-L1 Loss，对于夹爪的状态则使用BCE Loss

在训练的过程中，预训练使用了大规模视频数据Ego4D，预训练阶段只需要使用视频预测MSE损失进行监督；微调阶段则使用机器人数据进行端到端的优化，在这个过程中会用到上述的所有Loss同时进行行为克隆训练和视频预测训练。

GR-2

Overview

接续GR-1中的思路，GR-2更进一步地扩增了预训练的数据集的来源，用超过500亿的token进行训练，使得GR-2能够很大程度拥有Generalist的能力，甚至展现了对未见场景（心背景、环境、物品、任务）的泛化能力。

对于其他领域的Foundation Model，其实有一个很重要的衡量指标就是泛化性和高效微调能力。对于一个Generalist来说，掌握大量的manipulation技能是最基本的，另外它需要有很强的学习新知识和处理干扰的能力，在整个过程当中，GR-2依然采用视频预测预训练+本体微调的思路。

Method

模型的核心价值就是要训练一个universal policy，依然给定语言指令、观测和状态，输出后几步的动作，对于输入，依然使用一个冻住的text encoder来编码语言，并且使用VQGAN来训练视觉输入，以得到离散token，robot state则使用线性层进行处理，在微调阶段，这个部分依然是可以训练的。在这次的预训练过程当中使用了更大规模的数据集进行训练，除此之外作者还搭建了一套数据的筛选和重新标注的管线。

作者使用了数据增强的方式来，对模型的场景可泛化性做出了提升，主要的方法包括对于背景的更改和场景中其他物体的增加，文中通过将自采集的物体数据集和Open Image dataset上的数据进行训练，得到的扩散模型生成器就可以实现对场景中的物体的编辑，对于背景的更换，则使用SAM进行，前景分割和后景贴图，最后使用视频生成模型进行增强数据的产出。可以看出，对于GR-2，核心提升的就是泛化能力和多任务处理能力，包括后续的一些实验，也集中在unseen场景的处理当中。

GR-3

GR-3延续之前的理念，追求更加泛化，这次还包括了对模糊语言指令的处理，另外模型也支持对少量人类轨迹数据的微调。这次的更新更像是系统性的更新，包括了采集infra的搭建和数据处理管线以及模型训练范式的革新。在Demo视频中有一个非常亮眼的表现就是对易形变物体的灵巧操作的能力的展现。

整个VLA模型的VLM部分使用的是开源的Qwen2.5VL模型，对于输出，相比于前两代，这一代使用了现在流行的action-chunk，并且使用了flow matching方法作为action expert。为了加强泛化能力，作者使用大规模的VL数据和具身数据进行co-train，这里co-train就意味着这两类数据的来源和分布差异是比较大的。通过这种方式模型不仅能够掌握新物体的理解，同时也能对一些抽象的表述（大小、空间关系、常识等等）进行理解。并且实现了用极少量的human trajectory数据对于模型的快速适应微调，同步地，他们还搭建了一套双手的VR遥操作数据采集infra。总的来说，这篇工作更加注重具身系统这一观念。

这篇工作中设定了很多具有挑战性的任务，包括具有泛化性的pick-and-place、长程的桌面整理（类似于π0）、对于高变形度的衣物的操作，可以说锚定的都是日常生活的操作。

GR-3模型设计

GR-3模型采用的是端到端的VLA模型架构，通过历史信息的输入输出对应的action chunk，并且采用了MoT架构来处理多个相机视角下的图片流，对于多视角图像和语言指令，文中使用预训练的Qwen2.5-VL-3B-Instruct作为backbone，并且使用DiT来作为action的输出，对于action的预测，使用了flow matching作为目标，FM模型由robot state和KV cache共同控制生成。通过多层的action DiT对action chunk的优化，并且中间对flow matching timestep使用AdaLN进行注入。另外使用causal mask来确保输出的action chunk内部的时序性。

在推理的过程中，进行了相应的优化设计来确保推理速度，首先对于action DiT，他的Transformer层数是前端的VLM的一半，而在VLM的Transformer的计算中，只会缓存后半层的Key/Value信息来得到相对来说语义更强的特征，通过这种方式，也加速了推理的进程同时确保结果的质量。

为了确保训练的稳定性，在attention和FFN的线性层后都使用了RMSNorm。

Training Recipe

**训练目标：**对于大规模、多源头数据的训练，本身具有很重要的研究价值。首先对于robot trajectory来说，会使用模仿学习的方法来最大化策略的似然，另外对于action prediction会使用Flow matching Loss进行监督，不同于π0使用ß分布的时序采样，这里使用了均匀分布的时序采样。为了加速训练，FM loss会在一次VLM的钱想过程中通过多次采样FM的时间步进行训练，在本文中仅使用五步Flow Matching，这相比于π0的十步能够减少一半的开销。

**数采管线：**在数据采集的流程中，团队也十分关注数据的域随机化程度以及质量筛选。

**增强语言信息：**作者使用了task status作为动作空间的额外维度来提供辅助监督，实现任务状态的理解和条件注入，其中用的是双极性编码的思路，分别表示为Ongoing、Terminated和Invalid状态。Ongoing表示了机器人正在task的运行途中，而Terminated表示任务已经完成，最后的状态则代表了文字和观察内容的不相符，这也一定程度上解决了RDT所面临的一些问题。在训练的时候会随机将文不对题的instruction作为训练数据来强制让模型具备图文匹配的理解，提升了VLA中L的作用。

**Co-Train：**为了实现对于OOD指令的泛化性，文中对GR-3进行了Vision-Language data的训练，这个过程当中对于VLM和DiT都进行了相应的训练，VLM用NTP（Next-Token-Prediction）作为训练目标，而Action Expert则使用FM loss进行监督训练，可以看算法图的右半部分，在这个过程当中，文中是动态混合部分VL数据在一些robot trajectory中来促进模型的泛化性学习的，其实这里让博主有些疑惑，这样的训练方式是否能够work，它到底从中能学到什么。

**Few-shot：**最后文中通过少量的真机轨迹的采集和微调，实现了GR-3的few-shot能力。

System

团队还特别推出了移动机器人平台ByteMini robot，实现了22自由度的双臂移动机器人本体的设计，并且还对手腕做了球轴设计实现了更加灵动的操作，并且能够实现更大的工作空间。

总结

总的来说，GR系列的每一个工作都是这个阶段具身的集大成者，并且能够充分把算法和大规模数据训练结合，我们会发现GR-3相比前两个模型产生了非常巨大的变化，逐代演进也映射了具身的发展，从一开始纯粹的数据驱动的模型训练，到数据筛选机制介入与更大规模的训练，再到如今从数据采集到大规模数据训练、VLM+action expert的新架构，其中暗含了每一个具身时期，这个社区在关注的事情。或许未来具身社区的工作会更加注重系统观念，但或许只有这样，这个社区才可以慢下来、精心做好一整个具身智能所关乎的流程。或许在这样的发展之下，终有一天，具身会走入每家每户，成为人类社会不可或缺的一部分。

Know about VapourX

"人机合一，协同进化，化具象为抽象，寓抽象于具象。"

参考文献

[1] UNLEASHING LARGE-SCALE VIDEO GENERATIVE PRE-TRAINING FOR VISUAL ROBOT MANIPULATION

[2] GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation

[3] GR-3 Technical Report