摘要

受大规模语言建模进展的启发，我们应用了类似的方法来构建超越文本输出领域的单一通才代理。代理，我们称之为 Gato，作为一种多模式、多任务、多实施的通才策略工作。具有相同权重的相同网络可以播放 Atari、字幕图像、聊天、使用真实机器人手臂堆叠块等等，根据其上下文决定是否输出文本、关节扭矩、按钮按下或其他标记。在本报告中，我们描述了模型和数据，并记录了 Gato 的当前功能。
图 1 | 一个通才代理。 Gato 可以使用具有相同权重集的单个神经网络在各种环境中感知不同的实施例并采取行动。 Gato 接受了 604 项具有不同模式、观察和行动规范的不同任务的培训。

引言

在所有任务中使用单个神经序列模型有很大的好处。它减少了对每个领域具有适当归纳偏差的手工制作策略模型的需求。它增加了训练数据的数量和多样性，因为序列模型可以摄取任何可以序列化为平面序列的数据。此外，即使在数据、计算和模型规模的前沿，其性能也在不断提高（Hoffmann 等人，2022；Kaplan 等人，2020）。从历史上看，更善于利用计算的通用模型最终也倾向于超越更专业的领域特定方法（Sutton，2019）。
在本文中，我们描述了一个通用代理的当前迭代，我们称之为 Gato，实例化为一个单一的、大型的变压器序列模型。使用一组权重，Gato 可以进行对话、字幕图像、使用真正的机械臂堆叠积木、在玩 Atari 游戏时胜过人类、在模拟 3D 环境中导航、遵循指令等等。
虽然不能期望任何智能体在所有可以想象的控制任务中都表现出色，尤其是那些远远超出其训练分布的控制任务，但我们在这里检验了一个假设，即训练一个通常能够处理大量任务的智能体是可能的；并且这个通用代理可以用很少的额外数据来适应更多的任务。我们假设可以通过缩放数据、计算和模型参数来获得这样的代理，在保持性能的同时不断扩大训练分布，以涵盖任何感兴趣的任务、行为和体现。在这种情况下，自然语言可以作为其他不兼容的实施例的共同基础，解锁对新行为的组合泛化。
我们将训练重点放在模型规模的操作点上，该操作点允许实时控制现实世界的机器人，目前在 Gato 的情况下约为 1.2B 参数。随着硬件和模型架构的改进，这个操作点自然会增加可行模型的大小，将通用模型推向更高的比例定律曲线。为简单起见，Gato 以纯监督的方式离线训练；然而，原则上，没有理由不能同时使用离线或在线强化学习 (RL) 对其进行训练。

模型

Gato 的指导设计原则是在尽可能广泛的相关数据上进行训练，包括图像、文本、本体感觉、关节扭矩、按钮按压以及其他离散和连续的观察和动作等多种模式。为了能够处理这种多模式数据，我们将所有数据序列化为一个扁平的令牌序列。在这种表示中，Gato 可以从类似于标准的大规模语言模型进行训练和采样。在部署期间，采样的令牌会根据上下文组合成对话响应、字幕、按钮按下或其他动作。在以下小节中，我们将描述 Gato 的标记化、网络架构、损失函数和部署。