【Transformer论文】通用代理

news/2024/7/19 11:39:40 标签: transformer, 深度学习, 人工智能
  • 文章题目:A Generalist Agent

摘要

  • 受大规模语言建模进展的启发,我们应用了类似的方法来构建超越文本输出领域的单一通才代理。 代理,我们称之为 Gato,作为一种多模式、多任务、多实施的通才策略工作。 具有相同权重的相同网络可以播放 Atari、字幕图像、聊天、使用真实机器人手臂堆叠块等等,根据其上下文决定是否输出文本、关节扭矩、按钮按下或其他标记。 在本报告中,我们描述了模型和数据,并记录了 Gato 的当前功能。
    在这里插入图片描述
  • 图 1 | 一个通才代理。 Gato 可以使用具有相同权重集的单个神经网络在各种环境中感知不同的实施例并采取行动。 Gato 接受了 604 项具有不同模式、观察和行动规范的不同任务的培训。

引言

  • 在所有任务中使用单个神经序列模型有很大的好处。 它减少了对每个领域具有适当归纳偏差的手工制作策略模型的需求。 它增加了训练数据的数量和多样性,因为序列模型可以摄取任何可以序列化为平面序列的数据。 此外,即使在数据、计算和模型规模的前沿,其性能也在不断提高(Hoffmann 等人,2022;Kaplan 等人,2020)。 从历史上看,更善于利用计算的通用模型最终也倾向于超越更专业的领域特定方法(Sutton,2019)。
  • 在本文中,我们描述了一个通用代理的当前迭代,我们称之为 Gato,实例化为一个单一的、大型的变压器序列模型。 使用一组权重,Gato 可以进行对话、字幕图像、使用真正的机械臂堆叠积木、在玩 Atari 游戏时胜过人类、在模拟 3D 环境中导航、遵循指令等等。
  • 虽然不能期望任何智能体在所有可以想象的控制任务中都表现出色,尤其是那些远远超出其训练分布的控制任务,但我们在这里检验了一个假设,即训练一个通常能够处理大量任务的智能体是可能的; 并且这个通用代理可以用很少的额外数据来适应更多的任务。 我们假设可以通过缩放数据、计算和模型参数来获得这样的代理,在保持性能的同时不断扩大训练分布,以涵盖任何感兴趣的任务、行为和体现。 在这种情况下,自然语言可以作为其他不兼容的实施例的共同基础,解锁对新行为的组合泛化。
  • 我们将训练重点放在模型规模的操作点上,该操作点允许实时控制现实世界的机器人,目前在 Gato 的情况下约为 1.2B 参数。 随着硬件和模型架构的改进,这个操作点自然会增加可行模型的大小,将通用模型推向更高的比例定律曲线。 为简单起见,Gato 以纯监督的方式离线训练; 然而,原则上,没有理由不能同时使用离线或在线强化学习 (RL) 对其进行训练。

模型

  • Gato 的指导设计原则是在尽可能广泛的相关数据上进行训练,包括图像、文本、本体感觉、关节扭矩、按钮按压以及其他离散和连续的观察和动作等多种模式。 为了能够处理这种多模式数据,我们将所有数据序列化为一个扁平的令牌序列。 在这种表示中,Gato 可以从类似于标准的大规模语言模型进行训练和采样。 在部署期间,采样的令牌会根据上下文组合成对话响应、字幕、按钮按下或其他动作。 在以下小节中,我们将描述 Gato 的标记化、网络架构、损失函数和部署。

标记化

  • 将数据转换为令牌的方法有无数种,包括直接使用原始的底层字节流。 下面我们报告我们发现使用现代硬件和模型架构在当前规模为 Gato 产生最佳结果的标记化方案。

http://www.niftyadmin.cn/n/1399122.html

相关文章

【Transformer论文】CMKD:用于音频分类的基于 CNN/Transformer 的跨模型知识蒸馏

文献题目:CMKD: CNN/Transformer-Based Cross-Model Knowledge Distillation for Audio Classification文献时间:2022 摘要 音频分类是一个活跃的研究领域,具有广泛的应用。 在过去十年中,卷积神经网络 (CNN) 已成为端到端音频分…

【计算机视觉】有限标签的场景图预测

文献题目:Scene Graph Prediction with Limited Labels 摘要 诸如视觉基因组之类的视觉知识库为计算机视觉中的众多应用提供了支持,包括视觉问答和字幕,但存在稀疏、不完整的关系。迄今为止,所有场景图模型都仅限于在一小部分视…

【知识图谱论文】知识图谱的多模态数据增强表示学习

论文题目:Multimodal Data Enhanced Representation Learning for Knowledge Graphs论文期刊: IJCNN论文时间:2019 摘要 知识图谱或知识库在人工智能领域的各种应用中发挥着重要作用。在知识图谱的研究和应用中,知识表示学习是基…

【知识图谱论文】稀疏知识图上多跳推理的动态预期与补全

Article 文章题目:Dynamic Anticipation and Completion for Multi-Hop Reasoning over Sparse Knowledge Graph代码:https://github.com/THU-KEG/DacKGR 摘要 近年来,多跳推理得到了广泛的研究,以寻求一种有效且可解释的知识图…

【强化学习论文】柔性行为综合的扩散规划

文献题目:Planning with Diffusion for Flexible Behavior Synthesis发表时间:2022 摘要 基于模型的强化学习方法通常只将学习用于估计近似动力学模型,将其余的决策工作卸载给经典的轨迹优化器。虽然概念上很简单,但这种组合有许…

5G 技术特点与应用

5G技术与应用场景 ​ 1、概述 ​ 随着时代的快速发展,科学技术也不断创新以及改进,其中通信技术发展尤为迅速,为移动通信技术 的更新换代提供条件支持。目前为止,通信领域最先进的技术是5G移动通信技术,预计会在2020年广泛使用,…

一 计算机单位与进制解析

一 计算机单位与进制解析 概述 我们一般说的百兆、千兆的单位是bps(比特率),我们的网卡光纤的传输速度是百兆单位是(100mbps)的意思,而在我们实际应用中使用的传输单位是字节/秒(byte/S) 1、单位换算类表 8bit1byte 1024byte…

网络地址与数制转换和交换机基本原理

网络地址与数制转换 信号与传输传输介质连接布线数制转换 一信号的概述 信号的可分类1:模拟信号是一个连续变化的电磁波可以以不同频率的媒体上传输是一个连续变化的物理量 2:数字型号:是不连续的物理量型号参数也不停的变化 信号的失真 1&#xff1a…