self-attention(上)李宏毅

news/2024/7/19 10:08:56 标签: self-attention, transformer

B站视频链接

word embedding

https//www.youtube.com/watch?v=X7PH3NuYW0Q
在这里插入图片描述
self-attention处理整个sequence,FC专注处理某一个位置的资讯,self-attention和FC可以交替使用。

transformer_5">transformer架构

在这里插入图片描述

self-attention的简单理解

在这里插入图片描述
a1-a4可能是input也可以作为中间层的输入,b1~b4每个向量都会考虑整个input sequence

计算关联性(例如向量a1和a2的关联性,一般都是使用下图左边的方法Dot-product)
在这里插入图片描述
计算a1和a1自身以及a2,a3,a4的关联性,得到a11,a12,a13,a14
在这里插入图片描述
得到关联性向量之后,再经过softmax处理(和分类是一个softmax)
在这里插入图片描述
基于attention scores抽取信息
a1-a4每个向量都可以×Wv得到对应的value: v1-v4。然后将关联性向量a11‘-a14’乘上对应的value,然后结果相加得到b1
在这里插入图片描述
然后依次计算b2,b3,b4,所以哪个关联性更大,得到的结果也就越接近那个关联性数据(比如a11’最大,得到的b1也就最接近a11‘,或者说b1的主要构成是由a11’构成)
在这里插入图片描述
概括计算b2流程
a1-a4乘上martix Wq,得到q1-q4,a1-a4乘上martix Wk,得到k1-k4,q2和k1-k4做dot-product操作,得到self-attention score(可能还会经过softmax处理): a21‘,a22‘,a23‘,a24‘,然后各自与v1~v4相乘,然后相加得到b2。
在这里插入图片描述
从矩阵角度理解计算过程
我的理解:这样就很容易提高运算速度,因为并行度高
在这里插入图片描述


http://www.niftyadmin.cn/n/5309228.html

相关文章

【Spring Cloud】Feign组件的使用及参数的传递

🎉🎉欢迎来到我的CSDN主页!🎉🎉 🏅我是Java方文山,一个在CSDN分享笔记的博主。📚📚 🌟推荐给大家我的专栏《Spring Cloud》。🎯🎯 &am…

C++11,移动语义

移动语义的作用 旨在提高对象的移动效率和减少资源的不必要拷贝. 传统的拷贝构造函数和赋值运算符会在对象间进行深拷贝,即将原始对象的数据复制到一个新的对象中。而移动语义则允许我们将资源从一个对象转移到另一个对象,而无需进行深拷贝。 在C11中&…

Ubuntu 18.04开发环境搭建

工作不易,为了避免未来需要重装系统的进行折腾,个人进行了Ubuntu环境配置的整合,方便自己未来能顺畅的配置好开发环境,同时分享给大家。本文多出有转载其他文,并相应的标注了转载内容,如有侵权请联系博主删…

k8s部署深度学习项目 k8s部署实例

一、K8s Deployments介绍及创建 简介 为了实现在Kubernetes集群上部署容器化应用程序。 需要创建一个Kubernetes Deployment,Deployment负责创建和更新应用。 创建Deployment后,Kubernetes master 会将Deployment创建好的应用实例调度到集群中的各个节点。 应用实例创建完…

Beauty algorithm(二)唇妆

实现唇妆过程中首先确定唇部位置,其次对该区域进行渲染。 一、skills 前瞻 1、cv::convexHull 在点集中寻找凸包点 void convexHull( InputArray points, OutputArray hull, bool clockwise = false, bool returnPoints = true ); 参数poi…

非工程师指南: 训练 LLaMA 2 聊天机器人

引言 本教程将向你展示在不编写一行代码的情况下,如何构建自己的开源 ChatGPT,这样人人都能构建自己的聊天模型。我们将以 LLaMA 2 基础模型为例,在开源指令数据集上针对聊天场景对其进行微调,并将微调后的模型部署到一个可分享的…

Linux-v4l2框架

框架图 从上图不难看出,v4l2_device作为顶层管理者,一方面通过嵌入到一个video_device中,暴露video设备节点给用户空间进行控制;另一方面,video_device内部会创建一个media_entity作为在media controller中的抽象体&a…

【网络层】网际控制报文协议ICMP(湖科大慕课自学笔记)

网际控制报文协议ICMP 1:网际控制报文协议ICMP基本概述 ICMP报文被封装在IP数据报中发送 1:ICMP报文格式 ICMP报文作为IP数据报的数据载荷,IP协议为其添加一个首部使之成为IP数据报 2:ICMP报文类型 ICMP报文分为两大类&#x…