谁将替代 Transformer?

news/2024/7/19 9:56:23 标签: transformer, 深度学习, 人工智能

2017年谷歌发表的论文《Attention Is All You Need》成为当下人工智能的一篇圣经,此后席卷全球的人工智能热潮都可以直接追溯到 Transformer 的发明。

Transformer 由于其处理局部和长程依赖关系的能力以及可并行化训练的特点,一经问世,逐步取代了过去的 RNN(循环神经网络)与 CNN(卷积神经网络),成为 NLP(自然语言处理)前沿研究的标准范式。

今天主流的 AI 模型和产品——OpenAI 的ChatGPT、谷歌的 Bard、Anthropic 的 Claude,Midjourney、Sora到国内智谱 AI 的 ChatGLM 大模型、百川智能的 Baichuan 大模型、Kimi chat 等等——都是基于Transformer 架构。

Transformer 已然代表了当今人工智能技术无可争议的黄金标准,其主导地位至今无人能撼动。

在Transformer 大行其道的同时,出现了一些反对的声音,如:“Transformer 的效率并不高”;“Transformer 的天花板很容易窥见”;“Transformer 是很好,但并不能实现 AGI,实现一个world model(世界模型)”。

这是因为 Transformer 的强大之处同时也是它的弱点:Transformer 中固有的自注意力机制(attention)带来了挑战,主要是由于其二次复杂度造成的,这种复杂度使得该架构在涉及长输入序列或资源受限情况下计算成本高昂且占用内存

简单点说,这意味着当 Transformer 处理的序列长度(例如,段落中的单词数量或图像的大小)增加时,所需的算力就会按该序列的平方增加,从而迅速变得巨大,因此有说法认为“Transformer 效率不高”。这也是当下人工智能热潮引发了全球算力短缺的主要原因。

基于 Transformer 的局限性,许多非 Transformer 架构顺势提出,其中包括中国的 RWKV、Meta 的 Mega、微软亚研的 Retnet、Mamba、DeepMind 团队的 Hawk 和 Griffin 等——它们都是在 Transformer 一统大模型研发江湖之后陆续被提出来的。

他们大多在原来的 RNN 基础上,针对 Transformer 的缺陷和局限性来做改进,试图研究出所谓的「高效 Transformer」(efficient Transformer)结构,一个更像人类思考的架构。

其中 efficient Transformer 是指占用的内存更小、训练和推理过程中的计算成本更小的模型,试图来推翻Transformer 的霸权。

1.当前的非 Transformer 架构研究正走向何方?

现在主流的非 Transformer 研究基本都是针对 attention 机制去优化 full attention 的部分,然后想办法将这一部分变成一个 RNN 模型,以此提高推理的效率。

attention 是 Transformer 的核心——Transformer 模型之所以如此强大,是因为它抛弃了之前广泛采用的循环网络和卷积网络,而采用了一种特殊的结构——注意力机制(attention)来建模文本。</


http://www.niftyadmin.cn/n/5476710.html

相关文章

在NBA我需要翻译--适配器模式

1.1 在NBA我需要翻译&#xff01; "你说姚明去了几年&#xff0c;英语练出来了哦&#xff0c;我看教练在那里布置战术&#xff0c;他旁边也没有翻译的&#xff0c;不住点头&#xff0c;瞧样子听懂没什么问题了。" "要知道&#xff0c;最开始&#xff0c…

nodejs应用程序以守护进程daemon的方式启动,容器化部署的时候一直部署出错,导致无法成功启动程序。

一、背景 nodejs应用程序使用Egg.js 框架脚本命令&#xff0c;见package.json&#xff1a; "scripts": {"debug": "egg-bin debug","clean": "easy clean","build": "easy build prod","start&…

HarmonyOS实战开发-存储空间统计(仅对系统应用开放)

介绍 本示例通过应用程序包管理、应用空间统计与卷管理模块&#xff0c;实现了查看当前设备存储空间信息、所有安装的应用的存储信息、所有可用卷的存储信息的功能。 效果预览 使用说明&#xff1a; 1.主页面会展示当前设备存储使用的详细信息。 2.点击“应用”&#xff0c;…

提高网站安全性,漏洞扫描能带来什么帮助

随着互联网的蓬勃发展&#xff0c;网站已经成为人们获取信息、交流思想、开展业务的重要平台。然而&#xff0c;与之伴随的是日益严重的网络安全问题&#xff0c;包括恶意攻击、数据泄露、隐私侵犯等。 为了保障网站的安全性&#xff0c;提前做好网站的安全检测非常有必要&…

【简单讲解下Fine-tuning BERT】

&#x1f3a5;博主&#xff1a;程序员不想YY啊 &#x1f4ab;CSDN优质创作者&#xff0c;CSDN实力新星&#xff0c;CSDN博客专家 &#x1f917;点赞&#x1f388;收藏⭐再看&#x1f4ab;养成习惯 ✨希望本文对您有所裨益&#xff0c;如有不足之处&#xff0c;欢迎在评论区提出…

K8s学习十(高级调度)

高级调度 CronJob计划任务 在 k8s 中周期性运行计划任务&#xff0c;与 linux 中的 crontab 相同注意点&#xff1a;CronJob 执行的时间是 controller-manager 的时间&#xff0c;所以一定要确保 controller-manager 时间是准确的cron表达式如下&#xff1a; 配置如下&#x…

代码如何植入钩子程序

引言 相信大家都不想自己的代码被人拿出去做一些商业化的行为&#xff0c;但是一时半会又没有一个有效的方法&#xff0c;这里我提供一点思路。 常用的钩子程序植入方式 方式解释使用难度描述植入通知程序&#xff08;直接植入&#xff09;使用APi调用接口形式通知远程服务端程…

词令小程序最简单的三个步骤

词令是一款关键词口令直达工具&#xff0c;打开词令&#xff0c;输入指定的词令关键词直达口令&#xff0c;搜索直达该词令关联的目标如&#xff1a;官方网站、网址链接、应用程序、服务入口等等。 词令小程序最简单的三个步骤 1、打开词令关键词口令直达工具&#xff1b; 2、…