记录:自回归 模型在记忆 全随机序列 的潜变量 统计量爆炸现象

news/2024/7/19 12:23:45 标签: transformer, 深度学习

只是一个记录

8层12头512维度的 GPT 模型,使用它来记忆 10000 条 512长度 的无序序列,vocab_size 为100。

模型要自回归生成这些序列,不可能依赖局部推理,必须依赖全局视野,即记住前面的序列。

然后统计 最后一个norm层前的 latent 的 均方根值。然后发现,这个值会在训练初期迅速飙升到1e4 - 1e6 的域,非常巨大,如果使用半精度训练,会直接撑爆然后变成nan,只能使用float32值域训练。
一开始,我以为这模型又完蛋了,但后面让他继续训练,发现它居然在缓缓下降,当下降到 1e2 - 1e3 的以内的域时,模型基本记忆正确率已经 90%以上了。

在自然语言序列的训练中,这个值从来没有这么大过,最大也就500以内。

然后检查了这么巨大的值的来源,发现来源有两个,一个是注意力计算的第二个矩阵乘法。
out = v @ a
一个是 注意力计算的最后一个层。
但是神奇的是,这个注意层的各个权重是正常的,即权重的标准差均在1以内。(不过这也是能收敛的基础,权重不正常那基本不可能收敛)
下面的 z_loss 就是潜变量的 均方根
在这里插入图片描述

还是老问题,全局能力强的,局部能力就差。局部能力强的,全局能力就差。
写的在全局性能上很好的,在无序序列的模型收敛很快,在自然语言上被普通gpt秒成渣(指验证集分数提升慢,最终分数也差一点)
而普通的gpt模型,在自然语言上效果很好,但在记忆无序序列上,收敛速度极慢。

不知道有什么办法能结合他们优点,搞一个全局性能和局部性能兼优的模型


http://www.niftyadmin.cn/n/342314.html

相关文章

jvm之G1 GC

写在前面 jdk9以及之后的版本已经将默认的垃圾收集器parallel更换为G1.本文就一起来看下。 1:G1介绍 parallel GC的设计目标是高吞吐量,CMS GC的设计目标是低延迟,而G1的设计目标不是这二者中的任何一个,其设计目标是让GC的STW…

Linux网络——shell编程之免交互

Linux网络——shell编程之shell编程之免交互 一、概述1.常用的交互程序:2.语法格式: 二、Here Document常规用法1.read 命令的读取2.wc -l 的内容行数统计3.passwd用户密码的修改4.cat 查看内容并输出到文件中5.cat 查看交互内容并输出到新的文件中6.交互…

一文读懂ElGamal

目录 一文读懂ElGamal 算法描述 密钥生成 加密算法 解密算法 原理分析 积极攻击 代码实现 总结 聊到了Diffie-Hellman的密钥交换协议,这次来聊一个和Diffie-Hellman相似的一个加密算法--ElGamal加密算法,该算法同样选择一个素数p和它的一个原根作为公开密钥

CVTE C++软开全程面试(一面、二面、群面、HR面)

一面,面了一个钟,问了很多问题,大部分是计算机的基础知识,我也只能记录下一部分。 C的继承问题,protected成员被public、protected和private继承的情况。 下面是关于protected成员在不同类型继承中的访问权限&#xff…

不用再找了,你要的国内好用的ChatGPT网站都在这里

💡 大家好,我是可夫小子,关注AIGC、读书和自媒体。解锁更多ChatGPT、AI绘画玩法。加:keeepdance,备注:chatgpt,拉你进群。 目录 ChatGPT是什么 OpenAI与ChatGPT的发展历程 AI对话聊天 AI文档…

手写西瓜书bp神经网络 mnist10 c#版本

本文根据西瓜书第五章中给出的公式编写,书中给出了全连接神经网络的实现逻辑,本文在此基础上编写了Mnist10手写10个数字的案例,网上也有一些其他手写的例子参考。demo使用unity进行编写,方便且易于查错。 该案例仅作为学习&#x…

chatgpt赋能Python-python3_9怎么下载

Python 3.9: 从哪里下载以及如何安装 Python是一种高级编程语言,被广泛使用于数据科学、人工智能、Web开发等领域。Python的最新版本是Python 3.9,它带来了一些新的特性和改进。对于那些希望尝试Python 3.9的人来说,了解如何下载和安装是很重…

从0到1精通性能测试,需求到实战压力测试实例(详情)你要的都有...

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 性能测试需求分析…