【自然语言处理六-最重要的模型-transformer-下】

news/2024/7/19 11:49:06 标签: 自然语言处理, transformer, 人工智能

自然语言处理六-最重要的模型-transformer-下

  • transformer decoder
    • Masked multi-head attention
    • encoder和decoder的连接部分-cross attention
    • decoder的输出
      • AT(Autoregresssive)
      • NAT

transformer_decoder_2">transformer decoder

今天接上一篇文章讲的encoder 自然语言处理六-最重要的模型-transformer-上,继续讲transformer的decoder,也就是下图中的红框部分
在这里插入图片描述

可以看出encoder和decoder部分去掉粉红色框的部分,结构几乎一样,下面分三部分介绍不同点

Masked multi-head attention

decoder的注意力是masked的注意力,什么是masked的attention呢? 下面是self attention:

在这里插入图片描述
需要注意的是:
selfattention中注意力bi的输出是需要关注所有的输入,也就是下面那一整排向量

但如果是masked self-attention,注意力是这样子的:
在这里插入图片描述
这个与普通的self attention的区别
bi只能关注a0到ai的输入,不能包括ai+1后的输入,那么为什么需要masked attention呢?
用下面的语音辨识,举个例子说明一下:
在这里插入图片描述

encoder是把一次性把所有的输入都输入到模型,计算注意力分数,但是对于decoder来说,它是一个字一个字产生:
比如decoder计算第一个位置应该输入什么的时候,它并不知道下一个的输入是“機”,所以必须遮蔽右边的输入,因此又叫masked self-attention。
decoder中下一次的输入是在本次输入BEGIN计算出来以后“機”这个字,作为下一次的输入。
需要说明的一点是:
实际上我们在训练的时候是知道每个输入的,因为这些信息是训练资料提供的,但真正测试使用的时候,是无法知晓的。

encoder和decoder的连接部分-cross attention

下面是encoder和decoder的互连部分:
在这里插入图片描述
相同的Add和Norm不再赘述,下面是attention部分,这个attention部分的输入分为3部分:
有两个箭头来自encoder的输出(这部分用作self attention中的k和v)
一个箭头来自decoder上一层的输出(这一部分用作q)

所以计算attention的流程是这样的:

在这里插入图片描述
左边这边encoder的输出,用于生成k v,右边decoder上一层的输出,用作q
按照普通的attention计算注意力分数后,最终生成v
然后进行add 残差连接和norm 归一化后,作为这一层的输出
然后继续输入到FC(feed forward netword)中

除了上面几部分不同,还需要关注的decoder如何处理输出。

decoder的输出

decoder输出的序列长度应该是多长呢?
比还是以语音辨识为例,输入一段语音究竟应该输出多少个字符根本无法确认,那么decoder究竟是怎么确定输出的长度的呢?有两种做法AT和NAT (AT是Autoregresssive的缩写)

AT(Autoregresssive)

这种做法就是让机器自己决定要输多少长度的sequence,当模型输出END的时候,就认为decoder输出完毕

NAT

在这里插入图片描述
这种情况下有几种方法确定decoder输出的长度:
1.添加一个网络来预测输出的长度
2.输入一排BEGIN向量,输出一排向量即可,最终的输出截止到输出为END

通常情况下,我们都是用AT,效果更好一些


http://www.niftyadmin.cn/n/5407676.html

相关文章

Debezium发布历史168

原文地址: https://debezium.io/blog/2023/11/10/debezium-2-5-alpha2-released/ 欢迎关注留言,我是收集整理小能手,工具翻译,仅供参考,笔芯笔芯. Debezium 2.5.0.Alpha2 Released November 10, 2023 by Chris Cranf…

STM32 TIM编码器接口

单片机学习! 目录 文章目录 前言 一、编码器接口简介 1.1 编码器接口作用 1.2 编码器接口工作流程 1.3 编码器接口资源分布 1.4 编码器接口输入引脚 二、正交编码器 2.1 正交编码器功能 2.2 引脚作用 2.3 如何测量方向 2.4 正交信号优势 2.5 执行逻辑 三、编码器定时…

python代码出现segmentation fault和 Process finished with exit code 139

参考链接 [1] 【Q&A】Python代码调试之解决Segmentation fault (core dumped)问题 [2] Segmentation fault (core dumped)错误常见原因总结 python报错 下面是在服务器上跑yolov3工程出现的段错误(segmentation fault)问题。YOLOV3工程链接。 pych…

【书籍推广】这本书太好了!150页就能让你上手大模型应用开发

文章目录 蛇尾书特色蛇尾书思维导图作译者简介业内专家书评 如果问个问题:有哪些产品曾经创造了伟大的奇迹?ChatGPT 应该会当之无愧入选。仅仅发布 5 天,ChatGPT 就吸引了 100 万用户——当然,数据不是关键,关键是其背…

实现video视频缓存

方法一 要实现视频被播放过后本地有缓存,下次播放无需网络即可播放,你可以利用浏览器的本地存储功能(如localStorage或IndexedDB)来实现。 你可以在视频播放结束时,将视频的URL以及相关信息存储在本地存储中。然后&a…

GO基于token的认证登录

基于token 认证流程 用户向服务器发送用户名和密码。服务器将相关数据,比如用户 ID,认证有效期等信息签名后生成 token 返回给客户端。客户端将 token 写入本地存储。用户随后的每一次请求,都将 token 附加到 header 中。服务端获取到用户请…

[Python] 缓存实用工具

cachetools 是一个 Python 库,提供了用于缓存的实用工具,包括各种缓存算法和数据结构,如 LRU(最近最少使用)缓存、TTL(时间到期)缓存等。使用 cachetools 可以轻松地在 Python 应用程序中实现缓…

【开源物联网平台】物联网设备上云提供开箱即用接入SDK

一、项目介绍 IOTDeviceSDK是物联网平台提供的设备端软件开发工具包,可简化开发过程,实现设备快速接入各大物联网平台。 设备厂商获取SDK后,根据需要选择相应功能进行移植,即可快速集成IOTDeviceSDK,实现设备的接入。…