为什么要引入Attention机制?

news/2024/7/19 12:31:30 标签: p2p, transformer, 网络协议

Attention mechanism在序列学习任务上具有巨大的提升作用,在编解码器框架内,通过在编码段加入Attention模型,对源数据序列进行数据加权变换,或者在解码端引入Attention 模型,对目标数据进行加权变化,可以有效提高序列对序列的自然方式下的系统表现。

从应用层面上Attention可以分为:

空间注意力  Spatial Attention
时间注意力  Temporal Attention

从 Attention的作用方法上可分为:

Soft Attention

Hard Attention

根据Attention输出的向量分布是一种one-hot的独热分布还是soft的软分布,这直接影响对于上下文信息的选择作用。


为什么要加入Attention:

        1. 当输入序列非常长时,模型难以学到合理的向量表示。
        2. 序列输入时,随着序列的不断增长,原始根据时间步的方式的表现越来越差,这是由于原始的这种时间步模型设计的结构有缺陷,即所有的上下文输入信息都被限制到固定长度,整个模型的能力都同样受到限制,我们暂且把这种原始的模型称为简单的编解码器模型。
       3. 编解码器的结构无法解释,也就导致了其无法设计。
 


http://www.niftyadmin.cn/n/1399388.html

相关文章

快速排序与归并排序

1. 快速排序 不稳定,时间复杂度:平均O(nlogn)、最坏O(),最好O(nlogn); 空间复杂度:O(logn) 缺点: 对小规模的数据集性能不是很好。 通过一趟sort将要排序的data分割成独立的两部分,其中一部分的所有数据比另…

堆排序与优先级队列

1. 堆排序 1.1 堆性质 堆是具有以下性质的完全二叉树&#xff1a; 1. 每个节点的值都>其左右孩子的值(大顶堆)&#xff1b; 2. 每个节点的值都<其左右孩子的值(小顶堆)&#xff1b; 1.2 堆排序定义 利用堆这种数据结构而设计的排序算法&#xff0c;是一种选择排序。 稳…

形变分析模型

参考美团的一篇类似文章。 1. 形变分析 对时间序列两次处理归一形成形变量集合&#xff0c;通过形变量计算不同等级告警阈值。 2. 模型适用范围 有规律(有周期、有趋势)的时间序列&#xff0c;可以使用傅立叶变换确定曲线的短周期。 1. 归一化互相关公式&#xff1a;相似度越…

数组和为K的组合

1. 求数组中两数相加和为K的所有组合 1.1 排序指针 1. 先将数组排序 o(nlogn)&#xff1b; 2. 再使用两个指针 o(n)。 1. 代码实现 def two_num_sum_k(arr, k):if not arr or len(arr) < 2:return []result []arr.sort()low, high 0, len(arr) - 1while low < high:s…

最长公共子串与最长公共子序列

1. 最长公共子串 要求子串连续&#xff0c;不同于最长公共子序列 def LCS(s1, s2):len1, len2 len(s1), len(s2)# 匹配矩阵&#xff0c;用来记录两个字符串中所有位置的两个字符之间的匹配情况&#xff08;1&#xff1a;匹配&#xff1b;0&#xff1a;不匹配&#xff09;c …

01背包问题(动态规划DP)

01 背包问题是一种典型的Dynamic Programming。 问题描述&#xff1a; 给定一组物品&#xff0c;其中每种物品都有自己的重量和价格&#xff0c;在限定的总重量内&#xff0c;如何选择才能使物品的总价格最高&#xff1f; 一个例子&#xff1a; 现有5个商品&#xff0c;质量…

服务器远程管理工具Xshell安装及使用,传输文件工具安装及使用

两个软件 Xshell 双击输入用户名和密码 也可以通过密钥的方式 怎么生成密钥还没做过 Xftp 一边主机一边服务器&#xff0c;相互拖动就行了

WideDeep简介(二)

1. 核心思想 W&D的核心思想是结合线性模型的记忆能力和DNN模型的泛化能力&#xff0c;进行两个模型的联合训练&#xff08;在训练过程中同时优化2个模型的参数&#xff09;&#xff0c;从而兼顾推荐的准确性和多样性。 整个模型的输出是线性模型输出与DNN模型输出的叠加。模…