学习transformer模型-用jupyter演示逐步计算attention

学习transformer模型-用jupyter演示逐步计算attention

news/2024/7/19 10:25:28 标签: 学习, transformer, jupyter, python, attention

学习 transformer模型-用jupyter演示如何计算attention，不含multi-head attention，但包括权重矩阵W。

input embedding：文本嵌入

每个字符用长度为5的向量表示：

注意力公式：

1，准备Q K V：

先生成权重矩阵WQ，WK，WV。权重矩阵W*是训练的目标。

再生成 Q K V。

2，计算Q和K的点积，即相似度。

3，除以 K向量维度的平方根，好做softmax，不然比例计算会失衡。

4，做softmax，得出百分比。

5，百分比再跟V相乘，得出attention

http://www.niftyadmin.cn/n/5461271.html

相关文章

docker 部署 nali 开源 IP 地理信息归属查询软件

docker 部署 nali 开源 IP 地理信息归属查询软件

前言早前用到一个小巧开源的 IP 归属地查询软件，官方提供了 Dockerfile，使用了一段时间觉得还不错，非常简单便捷。部署 docker 启动由于该项目会在首次启动自动下载 IP 数据库,所以最好通过挂载目录的方式,将数据库目录挂在到本地,避免…

阅读更多...

opencart 插件开发

opencart 插件开发

官方文档： 1、OpenCart 使用指引使用文档 2、OpenCart Documentation 开发文档参考文档： 1、如何开发一个opencart插件模块，扩展想要的功能 - 代码先锋网 2、OpenCart3 插件开发步骤_opencart 博客插件-CSDN博客 3、https://www.…

阅读更多...

【ENSP】OSPF实现多区域之间的通信

【ENSP】OSPF实现多区域之间的通信

多区域作用：减少路由条目，增加收敛时间 OSPF配置方法 ospf 1 router-id 1.1.1.1 #1为进程号，1.1.1.1唯一标识路由器are 0.0.0.0 #配置区域network 192.168.1.0 0.0.0.25…

阅读更多...

代码随想录算法训练营第二十五天| 216.组合总和III，17.电话号码的字母组合

代码随想录算法训练营第二十五天| 216.组合总和III，17.电话号码的字母组合

题目与题解 216.组合总和III 题目链接：216.组合总和III 代码随想录题解：216.组合总和III 视频讲解：和组合问题有啥区别？回溯算法如何剪枝？| LeetCode：216.组合总和III_哔哩哔哩_bilibili 解题思路&#xf…

阅读更多...

Vite为什么比Webpack快得多？

Vite为什么比Webpack快得多？

Vite为什么比Webpack快得多？ 在前端开发中，构建工具扮演着至关重要的角色，而Vite和Webpack无疑是两个备受关注的工具。然而，众多开发者纷纷赞誉Vite的速度之快，本文将深入探讨Vite相较于Webpack为何更快的原因&#xf…

阅读更多...

我的创作纪念日 —— 两周年

我的创作纪念日 —— 两周年

从发布第一篇文章到现在，不觉已然两年时间了，其实有时候觉得挺慢的，想赶紧达到三年，申请博客专家，不过确实自身能力还需要继续锻炼，相比大佬们还是相差甚远，剩下的一年也算是必要的历练叭。最近…

阅读更多...

Redis 全景图（1）--- 关于 Redis 的6大模块

Redis 全景图（1）--- 关于 Redis 的6大模块

这是我第一次尝试以长文的形式写一篇Redis的总结文章。这篇文章我想写很久了，只是一直碍于我对Redis的掌握没有那么的好，因此迟迟未动笔。这几天，我一直在看各种不同类型的Redis文章，通过阅读这些文章，引发了我对于Red…

阅读更多...

sheng的学习笔记-AI-YOLO算法，目标检测

sheng的学习笔记-AI-YOLO算法，目标检测

AI目录：sheng的学习笔记-AI目录-CSDN博客目录目标定位（Object localization） 定义原理图具体做法： 输出向量图片中没有检测对象的样例损失函数编辑特征点检测（Landmark detection） 定义&a…

阅读更多...

最新文章