BERT: 面向语言理解的深度双向Transformer预训练

news/2024/7/19 8:40:55 标签: bert, transformer, 人工智能

参考视频:

 BERT 论文逐段精读【论文精读】_哔哩哔哩_bilibili

背景

BERT算是NLP里程碑式工作!让语言模型预训练出圈!

使用预训练模型做特征表示的时候一般有两类策略:

1. 基于特征 feature based (Elmo)把学到的特征和输入一起放进去做一个很好的特征表达

2. 基于微调 fine-tuning (GPT) 

但是都用的是单向语言模型↑ 预测模型,所以限制了语言架构,比如说只能从左往右读

 Masked Language Model

为了接触限制,BERT用的是一个带掩码的语言模型(MLM)(Masked Language Model),随机选字元,盖住,预测盖住的字

看多模态模型的时候有提到过!↑

 next sentence prediction

在原文中随机取两个句子,让模型判断句子是否相邻

贡献

1. 说明双向信息的重要性

 2.假设有比较好的预训练模型就不用对特定任务做特定的模型改动了

主要就是把前人的结果拓展到深的双向的模型架构上

相关工作

1. Unsupervised Feature-based Approches

2. Unsupervised Fine-tuning Approaches(GPT)

3. 在有标号的数据上进行迁移学习 (Transfer Learning from Supervised Data)

方法

模型

本篇工作调整了L:Transformer模块的个数,H:隐藏层的个数以及A:自注意力头的个数

BERT Base(L=12, H=768, A=12)

BERT Large(L=24, H=1024, A=16)

如何把超参数换算成可学习参数的大小?

可学习参数主要来自嵌入层以及Transformer Block

嵌入层

输入:字典的大小

Transformer Block(自注意力,MLP)

自注意力头个数A x 64 

Transformer Block 的可学习参数是H^2 *4 (自注意力)

MLP H^2 *8

此处合起来Transformer的参数是(H^2 *12)*L

输出:隐藏单元的个数H

总参数(36K * H + L*H*12)=110M

输入和输出

输入:

序列(sequence):既可以是句子,也可是句子对

切词方法: WordPiece,节省参数

序列的第一个词永远是序列[CLS],因为bert希望它最后输出代表整个序列的一个信息

把两个句子合在一起的时候需要区分两个句子:

1)把每个句子后面放上特殊的词[SEP]

2) 学一个嵌入层

对每个词元进入BERT的向量表示,是词元本身的embedding,加句子embedding加position embedding

缺点:

与GPT(Improving Language Understanding by Generative Pre-Training)比,BERT用的是编码器,GPT用的是解码器。BERT做机器翻译、文本的摘要(生成类的任务)不好做。

写的不算全,后面看到后面补。


http://www.niftyadmin.cn/n/5044820.html

相关文章

基于SpringBoot的学科竞赛管理系统的设计与实现

目录 前言 一、技术栈 二、系统功能介绍 学生功能模块的实现 管理员功能模块的实现 教师管理界面 三、核心代码 1、登录模块 2、文件上传模块 3、代码封装 前言 随着国家教育体制的改革,全国各地举办的竞赛活动数目也是逐年增加,面对如此大的数目…

竞赛选题 基于深度学习的视频多目标跟踪实现

文章目录 1 前言2 先上成果3 多目标跟踪的两种方法3.1 方法13.2 方法2 4 Tracking By Detecting的跟踪过程4.1 存在的问题4.2 基于轨迹预测的跟踪方式 5 训练代码6 最后 1 前言 🔥 优质竞赛项目系列,今天要分享的是 基于深度学习的视频多目标跟踪实现 …

在Copernicus Data Space Ecosystem下载Sentinel数据及使用脚本检索和下载数据

文章目录 1.前言2.Copernicus Data Space Ecosystem使用介绍3.使用脚本检索和下载Sentinel数据4.最后 建了一个QQ群,大家可以在里边聊聊水色遥感数据下载和数据处理方面的事情:1087024529 1.前言 最近使用Sentinelsat库在Copernicus Open Access Hub下载…

什么是H2D和D2H的内存拷贝问题

H2D和D2H表示GPU和CPU之间内存的拷贝操作: H2D: Host to Device 的缩写,表示将内存从CPU(Host)拷贝到GPU device(设备)上。 D2H: Device to Host 的缩写,表示将内存从GPU device拷贝回CPU上。 在GPU计算中,数据需要在CPU和GPU之间传输,这就涉及到H2D和D2H的内存拷贝。 但CP…

趣解设计模式之《小王的糖果售卖机》

〇、小故事 小王最近一直在寻找商机,他发现商场儿童乐园或者中小学校周围,会有很多小朋友喜欢吃糖果,那么他想设计一款糖果售卖机,让后将这些糖果售卖机布置到商场和学校旁边,这样就能获得源源不断的收益了。 想到这里…

树、二叉树、堆及其应用(堆排序、top-k问题)

目录 树的概念与结构 概念: 与树相关的概念: 树的表示: 二叉树 概念: 特殊的二叉树: 二叉树性质: 二叉树的存储结构: 堆 堆的概念: 堆的实现: 堆的创建: 堆的插入: 堆的删…

递归,搜索与回溯

1.汉诺塔问题 在经典汉诺塔问题中,有 3 根柱子及 N 个不同大小的穿孔圆盘,盘子可以滑入任意一根柱子。一开始,所有盘子自上而下按升序依次套在第一根柱子上(即每一个盘子只能放在更大的盘子上面)。移动圆盘时受到以下限制: (1) 每次只能移动…

31.带有文本和渐变阴影的CSS图标悬停效果

效果 源码 index.html <!doctype html> <html> <head><meta charset="utf-8"><title>CSS Icon Hover Effects</title><link rel="stylesheet" href="style.css"> </head> <body><ul…