attention is all you need 超参数 私自解读

news/2024/7/19 10:00:12 标签: transformer

 这几个超参数可变,但是也不能变得太多;

语言本身是复杂的,但可以按照多套语法体系来解剖语言现象,所以超参数是有一定可变的范围;

为什么是6层编码器和解码器呢?

人类的语言可以按照六个层次来组织:

词法,简单句法,复合句法,段内文法,章内文法,章间文法;

个人觉的7会更好,因为7是一个完全数;可能还存在一种语法关系,人类没有捕捉到;

这种层次关系,可能是被 transformer 倒过来,并且是复合解析的,是一种人类的语法观念所不曾领略到的语法模式;这对语言学家应该有很大的启示。

有点像是红学家的那种通篇解析法;

为什么多头注意力要有8个head呢?

上面每一层次的语法,在本层类,都可以按照8个特征关系类来划分;

比如词法:动词,形容词,名词,代词,...

比如简单句法:主谓,主谓宾,主谓宾补,主系表,...

比如复合句法:转折,因果,让步,排比,...

后面三个更高级,但其内部一定有特征关系;

个人觉的7会更好,因为7是一个完全数;每层8关系似乎太多了。

网络结构如何把低阶语法关系传递到高层上去的呢?

比如第一层的词法关系,如何传递到第二层的简单句法里去了呢?第二层的简单句法关系,又是如何编码并传递到复合句法层的呢?


http://www.niftyadmin.cn/n/4956059.html

相关文章

Java面向对象三大特性之多态及综合练习

1.1 多态的形式 多态是继封装、继承之后,面向对象的第三大特性。 多态是出现在继承或者实现关系中的。 多态体现的格式: 父类类型 变量名 new 子类/实现类构造器; 变量名.方法名(); 多态的前提:有继承关系,子类对象是可以赋…

It‘s likely that neither a Result Type nor a Result Map was specified.

问题: org.mybatis.spring.MyBatisSystemException: nested exception is org.apache.ibatis.executor.ExecutorException: A query was run and no Result Maps were 原因: 由于传递参数给 mapper 映射文件,所以必须要指定参数数据格式 如…

睿趣科技:抖音小店新人最适合卖什么产品

随着移动互联网的不断发展,短视频平台如今已经成为了人们日常生活中不可或缺的一部分。其中,抖音作为国内短视频平台的代表,不仅让用户可以欣赏到各种有趣、创意的短视频内容,同时也为创业者提供了一个广阔的创业机会——抖音小店…

两化融合申报条件

两化融合申报条件: (一)申报主体为本市行政区域内依法登记注册、具有独立法人资格的企业、事业单位、社会组织,项目实施地在山东市。 (二)申报单位未违反国家省市联合惩戒政策和制度规定,没有被列为失信联…

Qt 实现 360 安全卫士

作者: 一去、二三里 个人微信号: iwaleon 微信公众号: 高效程序员 回想起来,这也算是一个有故事的代码。虽然时间比较久远,但还是记忆犹新。 那就简单说说吧,也不枉费当年的一片心血! 说说我的…

java八股文面试[java基础]——面向对象特点

三大特点: 封装 继承 多态 面试题:java如何实现多继承(除了使用接口之外) 实现多继承有三个方法: 多层继承内部类接口 知识来源: 【基础】面向对象_哔哩哔哩_bilibili 【2023年面试】Java面向对象有哪些…

css实现三角形的几种方法

css实现三角形的方法:1、使用边框实现三角形,利用透明边框和实色边框的组合,可以创建不同方向和大小的三角形;2、使用伪元素实现三角形,通过使用伪元素来创建一个占据父元素一半大小的实心三角形;3、使用tr…

2021年12月 C/C++(三级)真题解析#中国电子学会#全国青少年软件编程等级考试

第1题:我家的门牌号 我家住在一条短胡同里,这条胡同的门牌号从1开始顺序编号。 若所有的门牌号之和减去我家门牌号的两倍,恰好等于n,求我家的门牌号及总共有多少家。 数据保证有唯一解。 时间限制:1000 内存限制:65536 输入 一个正整数n。n < 100000。 输出 一行,包含…