为什么要引入Attention机制？

为什么要引入Attention机制？

news/2024/7/19 12:31:30 标签: p2p, transformer, 网络协议

Attention mechanism在序列学习任务上具有巨大的提升作用，在编解码器框架内，通过在编码段加入Attention模型，对源数据序列进行数据加权变换，或者在解码端引入Attention 模型，对目标数据进行加权变化，可以有效提高序列对序列的自然方式下的系统表现。

从应用层面上Attention可以分为：

空间注意力 Spatial Attention
时间注意力 Temporal Attention

从 Attention的作用方法上可分为：

Soft Attention

Hard Attention

根据Attention输出的向量分布是一种one-hot的独热分布还是soft的软分布，这直接影响对于上下文信息的选择作用。

为什么要加入Attention：

        1. 当输入序列非常长时，模型难以学到合理的向量表示。
        2. 序列输入时，随着序列的不断增长，原始根据时间步的方式的表现越来越差，这是由于原始的这种时间步模型设计的结构有缺陷，即所有的上下文输入信息都被限制到固定长度，整个模型的能力都同样受到限制，我们暂且把这种原始的模型称为简单的编解码器模型。
       3. 编解码器的结构无法解释，也就导致了其无法设计。

http://www.niftyadmin.cn/n/1399388.html

相关文章

$快速排序与归并排序$

快速排序与归并排序

1. 快速排序不稳定，时间复杂度：平均O(nlogn)、最坏O()，最好O(nlogn); 空间复杂度：O(logn) 缺点： 对小规模的数据集性能不是很好。通过一趟sort将要排序的data分割成独立的两部分，其中一部分的所有数据比另…

阅读更多...

堆排序与优先级队列

堆排序与优先级队列

1. 堆排序 1.1 堆性质堆是具有以下性质的完全二叉树： 1. 每个节点的值都>其左右孩子的值(大顶堆)； 2. 每个节点的值都<其左右孩子的值(小顶堆)； 1.2 堆排序定义利用堆这种数据结构而设计的排序算法，是一种选择排序。稳…

阅读更多...

形变分析模型

形变分析模型

参考美团的一篇类似文章。 1. 形变分析对时间序列两次处理归一形成形变量集合，通过形变量计算不同等级告警阈值。 2. 模型适用范围有规律(有周期、有趋势)的时间序列，可以使用傅立叶变换确定曲线的短周期。 1. 归一化互相关公式：相似度越…

阅读更多...

数组和为K的组合

数组和为K的组合

1. 求数组中两数相加和为K的所有组合 1.1 排序指针 1. 先将数组排序 o(nlogn)； 2. 再使用两个指针 o(n)。 1. 代码实现 def two_num_sum_k(arr, k):if not arr or len(arr) < 2:return []result []arr.sort()low, high 0, len(arr) - 1while low < high:s…

阅读更多...

$最长公共子串与最长公共子序列$

最长公共子串与最长公共子序列

1. 最长公共子串要求子串连续，不同于最长公共子序列 def LCS(s1, s2):len1, len2 len(s1), len(s2)# 匹配矩阵，用来记录两个字符串中所有位置的两个字符之间的匹配情况（1：匹配；0：不匹配）c …

阅读更多...

01背包问题(动态规划DP)

01背包问题(动态规划DP)

01 背包问题是一种典型的Dynamic Programming。问题描述： 给定一组物品，其中每种物品都有自己的重量和价格，在限定的总重量内，如何选择才能使物品的总价格最高？ 一个例子： 现有5个商品，质量…

阅读更多...

服务器远程管理工具Xshell安装及使用，传输文件工具安装及使用

服务器远程管理工具Xshell安装及使用，传输文件工具安装及使用

两个软件 Xshell 双击输入用户名和密码也可以通过密钥的方式怎么生成密钥还没做过 Xftp 一边主机一边服务器，相互拖动就行了

阅读更多...

WideDeep简介(二)

WideDeep简介(二)

1. 核心思想 W&D的核心思想是结合线性模型的记忆能力和DNN模型的泛化能力，进行两个模型的联合训练（在训练过程中同时优化2个模型的参数），从而兼顾推荐的准确性和多样性。整个模型的输出是线性模型输出与DNN模型输出的叠加。模…

阅读更多...

最新文章