学习transformer模型-用jupyter演示逐步计算attention

news/2024/7/19 10:25:28 标签: 学习, transformer, jupyter, python, attention

学习transformer模型-用jupyter演示如何计算attention,不含multi-head attention,但包括权重矩阵W。

input embedding:文本嵌入

每个字符用长度为5的向量表示:

注意力公式:

1,准备Q K V:

        先 生成权重矩阵WQ,WK,WV。权重矩阵W*是训练的目标。

        再生成 Q K V。

2,计算Q和K的点积,即相似度。

3, 除以 K向量维度的平方根,好做softmax,不然比例计算会失衡。

4,做softmax,得出百分比。

5,百分比再跟V相乘,得出attention


http://www.niftyadmin.cn/n/5461271.html

相关文章

docker 部署 nali 开源 IP 地理信息归属查询软件

前言 早前用到一个小巧开源的 IP 归属地查询软件,官方提供了 Dockerfile,使用了一段时间觉得还不错,非常简单便捷。 部署 docker 启动 由于该项目会在首次启动自动下载 IP 数据库,所以最好通过挂载目录的方式,将数据库目录挂在到本地,避免…

opencart 插件开发

官方文档: 1、OpenCart 使用指引 使用文档 2、OpenCart Documentation 开发文档 参考文档: 1、如何开发一个opencart插件模块,扩展想要的功能 - 代码先锋网 2、OpenCart3 插件开发步骤_opencart 博客插件-CSDN博客 3、https://www.…

【ENSP】OSPF实现多区域之间的通信

多区域作用:减少路由条目,增加收敛时间 OSPF配置方法 ospf 1 router-id 1.1.1.1 #1为进程号,1.1.1.1唯一标识路由器are 0.0.0.0 #配置区域network 192.168.1.0 0.0.0.25…

代码随想录算法训练营第二十五天| 216.组合总和III,17.电话号码的字母组合

题目与题解 216.组合总和III 题目链接:216.组合总和III 代码随想录题解:216.组合总和III 视频讲解:和组合问题有啥区别?回溯算法如何剪枝?| LeetCode:216.组合总和III_哔哩哔哩_bilibili 解题思路&#xf…

Vite为什么比Webpack快得多?

Vite为什么比Webpack快得多? 在前端开发中,构建工具扮演着至关重要的角色,而Vite和Webpack无疑是两个备受关注的工具。然而,众多开发者纷纷赞誉Vite的速度之快,本文将深入探讨Vite相较于Webpack为何更快的原因&#xf…

我的创作纪念日 —— 两周年

从发布第一篇文章到现在,不觉已然两年时间了,其实有时候觉得挺慢的,想赶紧达到三年,申请博客专家,不过确实自身能力还需要继续锻炼,相比大佬们还是相差甚远,剩下的一年也算是必要的历练叭。最近…

Redis 全景图(1)--- 关于 Redis 的6大模块

这是我第一次尝试以长文的形式写一篇Redis的总结文章。这篇文章我想写很久了,只是一直碍于我对Redis的掌握没有那么的好,因此迟迟未动笔。这几天,我一直在看各种不同类型的Redis文章,通过阅读这些文章,引发了我对于Red…

sheng的学习笔记-AI-YOLO算法,目标检测

AI目录:sheng的学习笔记-AI目录-CSDN博客 目录 目标定位(Object localization) 定义 原理图 具体做法: 输出向量 图片中没有检测对象的样例 损失函数 ​编辑 特征点检测(Landmark detection) 定义&a…