DEBERTA: DECODING-ENHANCED BERT WITH DIS- ENTANGLED ATTENTION glue榜首论文解读

news/2024/7/19 12:25:08 标签: bert, transformer, 自然语言处理

一、概览

在这里插入图片描述

二、详细内容

  1. abstract
    a. 两个机制来improve bert和 roberta
    ⅰ. disentangled attention mechanism
    ⅱ. enhanced mask decoder
    b. fine-tuning阶段
    ⅰ. virtual adversarial training -> 提升泛化
    c. 效果
    ⅰ. 对nlu和nlg下游任务,提升都比较大
    ⅱ. 用一半的训练数据,效果就比roberta-large好了
    ⅲ. 48层的deberta,在21年6月登顶superGLUE
  2. introduction
    a. Disentangled attention(分散注意力)
    ⅰ. content embedding+相对位置embedding
    ⅱ. 所以强调的是相对位置?
    b. Enhanced mask decoder
    ⅰ. 出发点:预测mask的时候,有时候绝对位置也非常重要,这里引入绝对位置来辅助预测mask的token
    ⅱ. DeBERTa在softmax层之前引入了绝对单词位置嵌入,其中模型基于单词内容和位置的聚合上下文嵌入来解码被屏蔽的单词
    c. 对抗训练来提升fine-tuning下游任务的泛化能力
  3. background
    a. transformer
    ⅰ. 标准的self-attention缺乏有效的机制去编码位置信息
    ⅱ. 有论文显示相对位置编码比绝对位置编码更有效
    ⅲ. mlm:mask 15% token来预测
    1. 10%不变,10%随机词,80% mask
      b. deberta
      ⅰ. input
    2. 每个位置有个{Hi, Pi|j}:代表content和相对位置信息
    3. cross attention score:
    4. 感觉就是把他们分开了,并且结合了content-to-position的信息
      ⅱ. enhanced mask decoder accounts for absolute word positions
    5. 又来考虑绝对位置信息?
    6. 出发点:只用相对位置,不用绝对位置信息也是不够的
    7. 如何编码绝对位置?
      a. bert是在最开始的时候,利用了绝对的位置编码信息
      b. deberta是在encoder了后,softmax之前,才用了绝对的位置信息
      c. 总结一下,transformer层的时候,用相对位置信息,要decode mask的时候了,才添加绝对位置信息作为补偿信息,所以叫enhanced mask decoder
  4. scalue-invariant fine-tuning
    a. 正则化方法去提高泛化
    b. perturbation:扰动?
    c. 方法:在normalized的word embedding中添加扰动来实现
    d. SiFT first normalizes the word embedding vectors into stochastic vectors, and then applies the perturbation to the normalized embedding vectors
    e. SiFT首先将单词嵌入向量归一化为随机向量,然后将扰动应用于归一化的嵌入向量
  5. 实验
    a. NLI比roberta_base高1个点,squad比roberta_base高2-3个点

5.1 base模型对比:

在这里插入图片描述

5.2 消歧实验:
● 位置信息的作用
在这里插入图片描述

● 扰动的作用
在这里插入图片描述

● 附录:

  1. roberta比较
    在这里插入图片描述

  2. attention矩阵观察
    在这里插入图片描述

  3. fine-tuning阶段variance也小一些
    在这里插入图片描述

三、其他参考

【NLP笔记】GLUE榜首DeBerta解读
https://zhuanlan.zhihu.com/p/348522530


http://www.niftyadmin.cn/n/1843302.html

相关文章

一个通用的utils脚本

utils.py json保存&加载大文件序列化数据保存&加载创建目录log初始化随机种子初始化耗时统计 import pandas as pd import json import numpy as np import joblib import os from contextlib import contextmanager import time import logging import randomdef loa…

seq2seq模型学习总结【用作query rewrite问题生成模型】

一、概述 鱼与熊掌兼得:融合检索和生成的SimBERT模型:https://kexue.fm/archives/7427 SimBERTv2来了!融合检索和生成的RoFormer-Sim模型:https://kexue.fm/archives/8454 代码 v1:https://github.com/ZhuiyiTechno…

Esimcse:Enhanced Sample Building Method for Contrastive Learning of Unsupervised Sentence Embedding论

1 Abstract simcse: 两个文本不同dropout放到transformer里面,无监督来学习可能的缺点:embedding的时候,两个句子的长度都是一致的,这里可能会有biased,因为线上可不是这样的。实验统计观察,发现…

DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding解读

一、概述 二、详细内容 abstract a. deberataV3, debearta的改进版本 b. 方法1(改进mlm):通过使用RTD来替换原始的MLM任务,一个更有效的简单的预训练方法 c. 方法2(改进electra): ⅰ. 原因&a…

jenkins 集成环境搭建

http://www.cnblogs.com/jenniferhuang/p/3355252.html转载于:https://www.cnblogs.com/ericazy/p/7229755.html

百度UIE:Unified Structure Generation for Universal Information Extraction paper详细解读和相关资料

Prompt learning系列之信息抽取模型UIE:https://mp.weixin.qq.com/s/0lNUlUF_x95mED5B9iBpGg作者解读:https://www.bilibili.com/video/BV19g411Z7rZ/?spm_id_fromautoNextbilibili解读:https://www.bilibili.com/video/BV1LW4y1U7ch?spm_i…

终端安全求生指南(一)--终端发现

终端安全求生指南一、终端发现资产收集原则:A、分步骤进行资产梳理B、采用标准化来节省工作时间;C、整理准确的资产列表;资产发现的困难:1、分段网络:大型网络,基于全球的网段难以发现所有资产,…

查找计算机端口的占用情况

查找计算机端口的占用情况 例如查端口号5037(adb的端口)的占用情况 一、使用 netstat -ano命令 找到端口号为5037的,并且找到对应进程的PID 然后我们区windows任务管理器里面找PID是5736的进程是什么 找到为eclipse,说明找对了&am…