【人工智能与深度学习】注意力机制和Transformer 注意力机制 自我注意力 (I) 硬注意力 软注意力 自我注意力 (II) 高性能键-值存储 查询,键和值 [The Transformer](https://www.youtube.com/watch?v=f01J0Dri-6k&t=2114s) 编码器-解码器结构 编码模块 自我注意力 Add, Norm 1D-卷积 解码模块 交叉注意力 总结 单词语言模型</