学习transformer模型-Input Embedding 嵌入层的简明介绍

今天介绍transformer模型的Input Embedding 嵌入层。

背景

嵌入层的目标是使模型能够更多地了解单词、标记或其他输入之间的关系。

从头开始嵌入Embeddings from Scratch

嵌入序列需要分词器tokenizer、词汇表和索引,以及词汇表中每个单词的三维嵌入。Embedding a sequence requires a tokenizer, a vocabulary of words and their indices, and a three-dimensional embedding for each word in the vocabulary. 

  1. 分词器将序列分割为其标记tokens。
  2. 创建分词器后,可以为示例创建词汇表vocabulary 。词汇表包含构成数据的唯一单词列表。现在可以使用该词汇表将任何标记序列转换为其整数表示形式。
  3. 下一步是创建嵌入层,它只不过是一个大小为(vocab_size, d_model)的随机值矩阵。这些值可以使用torch.rand生成。
  4. 创建嵌入后,可以使用索引序列为每个标记选择适当的嵌入。


使用 PyTorch 模块实现嵌入

 PyTorch 来实现变压器,可以使用nn.Embedding模块。

Embedding — PyTorch 2.2 documentation

理解(batch_size、seq_length、d_model):

  • batch_size:一次提供的序列总数。
  • seq_length:标记化后每个序列中的单词或标记的总数。
  • d_model:嵌入每个标记后模型的大小。

如需代码实现,请参看原文链接:

https://medium.com/@hunter-j-phillips/the-embedding-layer-27d9c980d124


http://www.niftyadmin.cn/n/5461416.html

相关文章

Unity类银河恶魔城学习记录11-10 p112 Items drop源代码

Alex教程每一P的教程原代码加上我自己的理解初步理解写的注释,可供学习Alex教程的人参考 此代码仅为较上一P有所改变的代码 【Unity教程】从0编程制作类银河恶魔城游戏_哔哩哔哩_bilibili ItemObject_Trigger.cs using System.Collections; using System.Collecti…

MATLAB 统计滤波(去除点云噪声)(55)

MATLAB 统计滤波法(去除点云噪声)(55) 一、算法介绍二、算法实现1.原理2.代码一、算法介绍 点云统计滤波,是一种常用的去噪点方法,原始的点云数据中包含多种噪点,无法直接使用,往往需要通过一些方法去除噪点,而统计滤波在这方面的使用非常广泛常见,下面是去噪点后的…

Android SystemUI关机和重启的UI

基于Android 13 ,关机、重启都会回调到 SystemUI 的 GlobalActionsImpl , /** Copyright (C) 2017 The Android Open Source Project** Licensed under the Apache License, Version 2.0 (the "License"); you may not use this file* except…

GEE23:基于植被物候实现农作物分类

地物分类 1. 写在前面2. 北京作物分类 1. 写在前面 今天分享一个有意思的文章,用于进行农作物分类。文章提出了一个灵活的物候辅助监督水稻(PSPR)制图框架。主要是通过提取植被物候,并自动对物候数据进行采样,获得足够多的样本点,…

重新温习广软puthon爬虫技术。

下面是我不断试错的一个过程,好多知识点全忘记了,只能不断调实例,不断优化,重构,实现自己的需求。下面是我的运行截图。还是导包的问题。 个人感觉关键的还是这几部,被划了下划线的,存在问题&a…

如何用OBD创建OceanBase集群

OBD创建集群的方式适用于迅速搭建集群以进行测试工作。但是在涉及线上环境的部署时,推荐采用OCP进行集群的创建与管理。 有关OBD 的一些详细信息,可以去 github 了解,GitHub - oceanbase/obdeploy: A deployer and package manager for Ocea…

Linux中常用命令(文件、目录和文件压缩)及功能示例

一、Linux关于文件与目录的常用命令及其功能示例 命令: ls 全名: List (列表) 常用选项: -l: 详细列表格式,显示详细信息。-a: 显示所有文件,包括隐藏文件。 功能: 列出目录内容。 示例: ls -la /home 此命令以详细格式列出/home目录中的所有文件&#x…

EXCEL 通过FILES函数获取指定路径中的所有文件名

FILES函数 用途 获取指定文件路径中的所有文件名。 语法 FILES(“路径\*.*”)指定从哪个路径下返回一个文件名。 *.*是通配符,代表所有类型的文件,第一个*是文件名的通配符,第二个* 是文件的后缀名,表示文件类型,如…